公司动态

评估大型语言模型的质量与责任 机器学习博客

评估大型语言模型的质量与责任 机器学习博客

大型语言模型的质量与责任评估

关键要点

生成式人工智能存在多种风险,如毒性、偏见、泄露的个人信息和虚假信息,这些都可能损害企业声誉和客户信任。Amazon SageMaker Clarify 提供基础模型评估,用户可以在几分钟内评估和比较任何大型语言模型的质量和责任指标。引入了开源库 FMEval,旨在为数据科学家和机器学习工程师提供评估大型语言模型的工具,支持多种任务的评估维度。

随着生成式人工智能的广泛应用,其潜在风险也引起了广泛关注。这些风险包括毒性、偏见、泄露的个人信息,以及虚假信息,这些都是对组织声誉的重大威胁。研究表明,来自预训练基础模型的偏见和毒性风险会转移到以任务为特定的生成型人工智能服务中。为了应对这些风险,客户需要依赖复杂的工具和技术,而这些往往需要专业知识。此外,随着新模型的发布和现有模型的微调,评估过程变得越来越繁琐。

Amazon SageMaker Clarify 现在为 AWS 客户提供基础模型 (FM) 评估,这是一系列旨在迅速评估和比较大型语言模型质量和责任指标的功能。FM 评估提供了行业标准科学的可操作性见解,并可扩展支持客户特定的应用场景。通过自然语言解释、可视化和示例的形式,报告全面总结每次评估的结果,从而帮助注释者和数据科学家聚焦于优化他们的 LLM,并做出明智的决策。同时,它还能与 Amazon SageMaker 的机器学习和运营 (MLOps) 工作流程集成,以自动化和扩展机器学习生命周期。

什么是 FMEval?

FMEval 是我们推出的开源 LLM 评估库,旨在为数据科学家和机器学习工程师提供一种代码优先的体验,帮助评估大型语言模型的质量与责任,选择或调整特定的 LLM。FMEval 能够评估 LLM 模型端点或整个生成型人工智能服务的端点。它可以测量准确性、稳健性、偏见、毒性和事实知识等多个评估维度。FMEval 允许用户评估 AWS 托管的 LLM,例如 Amazon Bedrock 和 Jumpstart,以及第三方模型构建平台上的 LLM,如 ChatGPT、HuggingFace 和 LangChain。这一选项使客户能够将所有的 LLM 评估逻辑整合在一个地方,而无需分散在多个平台上。

如何开始使用?

您可以直接在您的工作负载中使用 FMEval,作为 Python 包或通过 GitHub 上的开源代码库,以便进行透明性和对负责任 AI 社区的贡献。FMEval 并没有明确提供建议,而是通过易于理解的数据和报告,将决策权交给 AWS 客户。FMEval 允许您上传自己的提示数据集和算法,其核心评估功能 evaluate() 是可扩展的。您可以上传提示数据集,选择并上传评估函数,然后运行评估作业。评估结果以多种格式交付,帮助您审查、分析和操作高风险项,并明智地选择合适的 LLM。

支持的算法

FMEval 提供 12 种内置评估,涵盖 4 种不同的任务。虽然可能的评估数量高达数百个,评估领域仍在不断扩展,FMEval 基于最新的科学发现和最流行的开源评估。FMEval 评估 API 的设计具有扩展性,所提出的评估集并不是旨在覆盖 LLM 使用的每一个方面,而是提供现成的流行评估,并允许引入新的评估。

FMEval 涉及以下四种不同任务以及五种评估维度,具体见下表:

任务评估维度开放式生成提示刻板印象毒性事实知识语义鲁棒性文本摘要准确性毒性语义鲁棒性问题回答 (QampA)准确性毒性语义鲁棒性分类准确性语义鲁棒性

对于每种评估,FMEval 提供了内置的提示数据集,这些数据集是从学术界和开源社区中策划的,帮助您快速入手。客户将使用内置数据集为其模型设定基线,并学习如何评估旨在特定生成型 AI 使用场景的自定义数据集。

接下来,我们深入介绍不同的评估:

准确性: 评估模型在不同任务中的表现,使用特定的评估指标,比如文本摘要、问题回答 (QampA) 和分类的准确性等。语义鲁棒性: 评估模型输出在输入的语义保持扰动结果下的变化性能。事实知识: 评估语言模型重现现实世界事实的能力。提示刻板印象: 评估模型在种族/肤色、性别/性别认同、性取向、宗教、年龄、国籍、残疾、外貌和社会经济地位等类别上的偏见。毒性: 评估语言模型生成的内容的毒性水平。

使用 FMEval 库进行评估

用户可以使用开源 FMEval 包实施其 FM 的评估。FMEval 包包含进行评估作业所需的核心构造。这些构造有助于建立数据集、待评估的模型和实施的评估算法。这三个构造均可继承并调整以适应自定义场景,因此用户不必受限于内置功能。

数据配置

数据配置对象指向数据集的位置,无论是本地还是在 S3 路径中。除此之外,数据配置还包含如 modelinput、targetoutput 和 modeloutput的字段。可以根据使用的评估算法,这些字段可能会有所不同。

模型运行器

模型运行器是您托管的 FM,并将进行推断。FMEval 包的模型托管是无关的,但是提供了一些内置模型运行器。

黑豹加速器官方网站

评估算法

有关 FMEval 可用评估算法的完整列表,请参阅了解模型评估。根据评估算法的不同,您可以提供数据配置和模型运行器,并运行评估。

结论

FM 评估使客户能够相信所选择的 LLM 是适合其使用案例的,并且能够负责任地运行。这是一个集成在 Amazon SageMaker 中的可扩展的负责任 AI 框架,通过简化评估和风险沟通,提高语言模型的透明度。这是增加客户信任和采用 AWS 上 LLM 的重要一步。

有关 FM 评估的更多信息,请参阅产品文档以及浏览 GitHub 上的示例笔记本。您还可以探索在更大规模上操作 LLM 评估的方法,具体说明见此博客文章。

评估大型语言模型的质量与责任 机器学习博客

作者介绍

Ram Vegiraju 是 SageMaker 服务团队的机器学习架构师,专注于帮助客户构建和优化其 AI/ML 解决方案。在业余时间,他喜欢旅行和写作。

Tomer Shenhar 是 AWS 的产品经理,专注于负责任的人工智能,致力于开发符合伦理和透明的人工智能解决方案。

Michele Donini 是 AWS 的高级应用科学家,领导着一个负责人工智能的科学团队,其研究兴趣包括算法公正性和可解释机器学习。

Michael Diamond 是 SageMaker Clarify 的产品负责人,对负责、透明的人工智能开发充满热情。在工作之余,他热爱骑行和打篮球。

  1. 探索替代方案并无缝迁移数据来自 Amazon Lookout for Vision 机器学习博客 探索替代方案并无缝迁移数据来自 Amazon Lookout for Vision 机器学习博客

    数据迁移和替代方案:亚马逊视觉检测服务的深入探讨关键要点亚马逊视觉检测服务将于2025年10月31日停止服务,新客户自2024年10月10日起无法访问该服务,但现有客户可正常使用至指定日期。本文介绍了视觉检测服务的替代方案以及如何将数据从其迁移至其他解决方案。亚马逊视觉检测服务Amazon Look...