18266417701
当前位置:LoadRunner首页 > 知识社区 > CNAS/CMA软件检测实验室建设 > GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》解读
GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》解读
时间 : 02-03 10:01 浏览量 : 35

GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》基于“2-4-6”框架设计,建立了评测大模型能力的完整体系,为开发者提供优化方向,为使用者提供选型依据,为监管者提供评判标准。本篇文章将对标准进行系统解读,并结合CNAS认可体系,提供符合国家标准的测试方法以及工具组合方案。

一、标准框架与核心内容解读

  1. “2-4-6”框架设计

    GB/T 45288.2-2025标准采用“2-4-6”框架设计,构建了系统化评测体系

    (1)两类评测视角,理解能力与生成能力

    ·理解能力:评估模型对文本、图像、音频等单模态或跨模态信息的解读、分析和推理能力

    ·生成能力:评估模型生成文本、图像、视频、语音等内容的质量与创造性

    (2)4类评测要素:工具、数据、方法、指标

    ·工具:评测过程中使用的软硬件系统与评测平台

    ·数据:评测所用的测试集、样本库及标注规范

    ·方法:评测的具体流程与技术手段

    ·指标:评测结果的量化与定性衡量标准

    (3)6大评测维度:功能性、准确性、可靠性、安全性、交互性、应用性

    ·功能性:评估模型是否能够完成预设任务, 包含任务完成度、接口兼容性等

    ·准确性:评估模型输出结果与期望结果的吻合程度,包括分类准确率、生成内容相似度等

    ·可靠性:评估模型在长期运行中的稳定性、故障恢复能力等

    ·安全性:评估模型的安全合规性,包含多轮对话连贯性、用户意图理解等

    ·应用性:评估模型在实际场景中的适用性与泛化能力

  2. 评测指标分类

    标准将评测指标分为两大类:理解能力评测指标和生成能力评测指标

    (1)理解能力评测指标

    针对模型对输入信息的处理能力,包含以下几大要点

    文本理解

    ·基础理解:文本分类、信息提取、情感分析等

    ·高级推理:数学推理、因果推理、常识问答、代码理解等

    ·长文本处理:篇章理解、长文本摘要、长文本问答等

    图像理解

    ·静态图像分类与识别

    ·动态图像行为识别与事件理解

    ·图像-文本跨模态理解(如图文检索、图文问答等)

    音频理解

    ·声纹识别

    ·音频事件分类

    ·音频-文本-跨模态理解

    多模态理解

    ·图文跨模态理解

    ·视频理解与问答

    ·图表推理

    ·视频异常检测

    知识广度与深度

    ·跨学科知识覆盖力

    ·知识准确性与可靠性

    ·知识更新与时效性

    逻辑推理与问题解决

    ·逻辑连贯性

    ·问题分解与解决能力

    ·多步骤推理能力

    安全与合规理解

    ·对敏感内容的识别能力

    ·对隐私信息的保护能力

    ·对价值观的正确理解能力

    (2)生成能力评测指标

    生成能力评测指标针对模型对输出内容的创造与表达能力,具体包含

    文本生成

    ·单模态文本生成:摘要、翻译、改写、扩写、续写、代码生成等

    ·多模态文本生成:图文描述、视频描述、图表解释等

    图像生成

    ·文本到图像生成

    ·图像编辑与修改

    ·图像风格迁移

    视频生成

    ·文本到视频生成

    ·视频编辑与修改

    ·视频风格迁移

    音频生成

    ·语音合成

    ·语音翻译

    ·音频生成与编辑

    多模态生成

    ·图文交互生成

    ·视频交互生成

    ·语音交互生成

    生成质量

    ·语言流畅度

    ·内容相关性

    ·事实准确性

    ·创造性与多样性

    安全与合规生成

    ·内容安全性评估

    ·隐私保护评估

    ·价值观对齐评估

  3. 评测方法与工具

    标准明确了评测方法的四大要素:评测指标体系、评测数据集、评测方法、评测工具

    (1)评测方法

    ·自动化评测:适用于有明确标准答案的任务,比如分类、收取、问答等。数据集需配套标准参考答案,评测脚本需明确评测指标计算方法和评分准则

    ·人工评测:适用于生成类、主观性强的任务,如摘要、翻译等。评测需要通过“平均意见得分”从相关度、完整度等8个维度打分,评分人员需要金国通义培训,确保评分一致性

    ·大模型裁判评测:使用高能力大模型作为评分其,适用于开放性问题。需要引入人工审核机制,确保评分的客观性与公正性

    (2)推荐评测工具与数据集

    标准推荐了多种评测工具和数据集,支持不同场景下的评测需求

    ·评测工具:

    LMBench::大模型能力评测的国家标准工具

    1.功能特点

    LMBench是“求索”评测体系中面向大模型能力评测的核心工具,具有以下特点:

    ·国家标准支撑:基于GB/T 45288.2-2025《人工智能大模型 第2部分:评测指标与方法》标准,提供科学、权威评测方法

    ·主客观评测结合:整合自动化评测和人工评测两种方式,全面评估模型能力

    ·多模态评测能力:支持语言、语言、视觉及多模态等多任务评测,覆盖理解能力与生成能力两个维度

    ·安全评测深度:提供14项一级安全指标,包含可控性、鲁棒性、可问责性、隐私保护、功能安全、韧性等,确保模型符合安全合规要求

    ·行业适配性:支持通用大模型和行业大模型的评测,为不同领域应用提供那个针对性评估

    ·评测流程标准化:形成“评测任务确定→训练数据采集→模型定向训练→任务真机测试→测试结果分析”标准化流程,确保测评结果的可比性和可复现性

    2.评测方法与流程

    LMBench评测方法主要包含以下几个步骤

    (1)评测任务确定:根据评测目标、确定评测任务类型

    (2)数据集选择

    ·通用评测:下选择C-Eval、MMLU等国家标准推荐数据集

    ·行业评测:选择符合GB/T 42755-2023数据标注规范的行业专用数据集

    · 安全评测:选择FLAMES等对抗样本库,评估模型在极端条件下的表现

    (3)评测实施

    ·自动化评测:使用EvalScope或OpenCompass平台,执行分类、问答等有明确答案的任务,计算准确率、召回率等客观指标

    ·人工评测:对摘要、翻译等生成类任务进行人工评分,采用平均意见得分(MOS)从相关度、完整度等维度评估生成质量

    ·安全评测:执行红队测试,使用对抗样本库评估模型在安全方面的表现

    (4)结果分析

    ·整合自动化评测和人工评测结果,形成多维度评测报告

    ·对比行业基线模型,提供客观参考

    ·识别模型的优缺点,提供针对性的改进建议

    3.适用场景与评测维度

    LMBench适用于多种评测场景

    ·通用大模型全面评测:评估文心一言、通义千问等通用大模型的综合能力。

    ·行业大模型场景验证:验证华为盘古、讯飞星火、中国移动"九天"等模型在能源、电力、医疗等专业场景下的表现。

    ·智能体与具身智能评测:评估智能体和具身智能模型的理解、推理和生成能力。

    ·安全合规性评估:评估模型在内容安全、价值观对齐等方面的表现,为敏感领域应用提供保障。

    评测维度:

    ·理解能力:评估模型对文本、图像、音频等单模态或跨模态信息的解读、分析和推理能力

    ·生成能力:评估模型生成文本、图像、视频、语音等内容的质量与创造性

    ·安全能力:评估模型在对抗样本、隐私保护、价值观对齐等方面的表现

    ·应用能力:评估模型在特定行业场景中的实际应用效果

    评测数据集:

    ·MMLU:多任务学习评测基准,包含13,062个问题,覆盖STEM、人文等57个任务,用于评估模型的知识广度和推理能力。

    ·C-Eval:中文基础模型评估套件,包含13,948个多项选择题,涵盖52个不同学科和四个难度级别,用于评测中文理解能力。

    ·Huma·Eval:Pytho·代码能力测试数据集,用于评测模型的代码生成能力。

    ·TruthfulQA:真实性与抗幻觉评测数据集,涵盖医疗、法律、金融、政治等问题,用于检测模型是否编造内容。

    ·FLAMES:价值观对齐评测基准,包含2,251个手动设计的提示和约18.7K个模型响应,用于评估模型的安全性。

二、CNAS认可体系对大模型评测的要求

中国合格评定国家认可委员会(CNAS)作为中国实验室认可的官方机构,其认可准则为大模型评测提供了权威的合规框架。为通过CNAS认可,大模型评测实验室需同时满足CNAS通用要求和人工智能大模型领域的特殊要求。

  1. 大模型评测的特殊要求

    针对大模型评测,CNAS还提出了以下特殊要求

    (1)评测工具合规性

    ·评测工具需使用"正式软件",即按照程序得到验证、通过批准的货架软件或经同行专家技术鉴定的非货架软件。

    ·开源评测工具需进行版本控制、校准验证,确保评测结果的可重复性和稳定性。

    ·若使用大模型作为裁判进行评测,需制定标准化评分流程,确保评分的客观性

    (2)评测数据集要求

    ·数据集需符合法律法规与隐私保护标准,禁止泄露用户敏感信息。

    ·数据标注流程需符合GB/T 42755-2023《人工智能面向机器学习的数据标注规程》的第6章和第7章要求。

    ·数据集需定期更新,确保反映当前技术场景和应用需求。

    (3)评测环境控制

    ·评测环境需按照被测模型的功能手册或使用说明进行配置,确保模型正常运行。

    ·所有评测任务应在相同或等价的软硬件环境下执行,保证结果可比性。

    ·评测环境配置需记录详细信息,便于复现和验证。

    (4)评测方法验证

    ·需提供评测方法验证报告,包括工具校准记录、数据集合规性证明等。

    ·对于自动化评测,需验证评测脚本的准确性和稳定性,如多次运行准确率波动≤1%。

    ·对于人工评测,需验证评分人员的一致性,如人工评分Kappa系数≥0.8。

三、评测工具分析与推荐

  1. EvalScope评测工具EvalScope是由阿里巴巴魔搭社区开源的评测基座,定位为"大模型全生命周期评估基座"。

    核心功能:

    ·评价基准丰富:内置MMLU、C-Eval、Huma·Eval等主流评测基准,覆盖语言理解、知识广度、推理能力、代码生成等多个评测维度

    ·场景多样化:支持单模型评测、竞技场模式、基线对比、端到端RAG评测、长推理、吞吐/延迟压测等多种评测场景

    ·后端支持广泛:支持Native、Ope·Compass、VLMEvalKit等多种评测后端,兼容主流模型API

    ·性能压测强大:支持对模型推理性能的详细测试,包括吞吐量(Throughput)、平均延迟(Mea· Late·cy)等关键指标

    CNAS合规性:

    ·EvalScope作为开源工具,需提供与商业评测工具的比对证明,证明评测结果的一致性

    ·评测方法需通过CNAS验证,确保评测脚本的准确性和稳定性

    ·支持自动生成评测报告,满足CNAS对文档完整性的要求

    适用场景

    ·通用大模型的全面评测

    ·企业内部模型的性能压测

    ·多模型对比评测

    推荐配置

    ·版本要求:EvalScope 2.0及以上版本

    ·硬件要求:至少8核16GB内存,支持GPU加速

    ·数据集:MMLU、C-Eval、Huma·Eval、TruthfulQA等

    ·评测指标:准确率、BLEU、ROUGE、吞吐量、延迟等

    2.Ope·Compass评测平台

    Ope·Compass是由上海人工智能实验室开源的大模型评测平台,旨在通过多维度指标体系评估语言及多模态模型的综合能力。

    核心功能:

    ·多维度评测:覆盖语言、知识、推理、代码、安全等五大核心维度

    ·分布式高效评测:通过CompassKit工具链实现一键分布式评测,支持大规模评测任务

    ·主客观评测结合:支持自动化评测和人工主观评测的结合,提供更全面的评测结果·模型辅助评估:利用高性能模型(如GPT-4)模拟人类评分,提高评测效率

    CNAS合规性

    ·需提供人工评测的标准化流程和评分指南,确保评分的一致性

    ·人工评测人员需经过统一培训,并通过CNAS资质认证l需提供CompassKit工具链的校准证明,确保自动化评测的准确性

    适用场景:

    ·企业级应用开发中的模型选型l学术研究中的模型对比分析l对话能力评测(如多轮对话、语音交互等)

    推荐配置:

    ·版本要求:Ope·Compass 2.0及以上版本

    ·硬件要求:至少16核32GB内存,支持GPU加速

    ·评测数据集:C-Eval、SuperCLUE等

    ·评测指标:MOS评分(主观)、准确率(客观)等

    3.FLAMES安全评测基准

    FLAMES是由上海人工智能实验室等机构开发的安全评测基准,专注于评估大模型的价值观对齐能力。

    核心功能:

    ·价值观对齐评测:包含公平性、安全性、合法性、数据保护等维度

    ·对抗性测试:包含2,251个手动设计的提示和约18.7K个模型响应,用于测试模型的抗干扰能力

    ·多维度评分:提供细粒度的评分,全面评估模型的安全合规性

    ·自动化评分:开发了专门的scorer,能够对模型输出进行多维度评分,准确率达77.4%

    CNAS合规性:

    ·需提供对抗样本库的合规性证明,确保不包含敏感信息

    ·需提供评分scorer的校准证明,确保评分的准确性和一致性

    ·需制定严格的隐私保护措施,防止评测过程中泄露用户数据

    适用场景:

    ·安全合规性评测

    ·政务、金融、医疗等敏感领域的大模型安全测试

    ·红队测试和对抗性攻击测试

    推荐配置

    ·版本要求:最新版本(建议定期更新)

    ·硬件要求:至少4核8GB内存

    ·评测数据集:FLAMES基准数据集

    ·评测指标:安全性评分、公平性评分、合法性评分等

    4.SuperCLUE评测基准

    SuperCLUE是由国内CLUE学术社区于2023年5月推出的中文通用大模型综合性评测基准。

    核心功能:

    ·多层次评测:从基础能力到专业能力,再到中文特性能力,全面评估大模型的中文处理能力

    ·数据集更新快:测评题库每2个月100%替换且全部原创,杜绝过拟合风险

    ·贴近应用场景:测评任务贴近真实落地场景,高度还原用户视角

    ·客观公正:作为完全独立的第三方评测机构,不研发自家模型,保证评测的客观性和公正性

    CNAS合规性:

    ·需提供数据集的合规性证明,确保符合隐私保护和数据安全要求

    ·需提供评测方法的验证报告,确保评测结果的可重复性和稳定性

    ·需记录评测环境配置信息,便于复现和验证

    适用场景:

    ·中文大模型的全面评测

    ·多模态大模型的中文能力评测

    ·大模型在中文应用场景的适配性评测

    推荐配置:

    ·版本要求:最新版本(建议定期更新)

    ·硬件要求:至少8核16GB内存,支持GPU加速

    ·评测数据集:SuperCLUE的通用基准、文本系列、多模态系列等

    ·评测指标:语言理解、知识应用、逻辑推理、中文特性等

四、评测实施建议与最佳实践

  1. 评测环境配置建议为确保评测结果的准确性和可比性,评测环境配置需遵循以下建议:

    硬件环境:

    ·根据评测模型规模选择合适的计算资源,通用大模型评测至少需要8核16GB内存,大型多模态模型评测需要16核32GB内存以上

    ·网络环境需稳定,带宽不低于100Mbps,延迟不超过50ms

    ·计算资源需经过CNAS校准,确保评测环境的一致性

    软件环境:

    ·评测工具需使用CNAS认可的正式版本,避免使用临时版本或未经验证的分支

    ·评测依赖库需固定版本,避免因依赖库更新导致评测结果变化

    ·评测环境需记录详细配置信息,便于复现和验证

    2.评测数据集选择策略

    评测数据集的选择直接影响评测结果的全面性和准确性,建议采用以下策略:

    多维度覆盖:

    ·语言理解:MMLU、C-Eval等

    ·生成能力:HumanEval、TruthfulQA等

    ·安全合规:FLAMES、Super Legal Be·ch等

    ·多模态能力:SuperCLUE、Ope·Image等

    数据更新策略:

    ·基准数据集:如MMLU、C-Eval等,可使用最新版本

    ·对抗样本库:如FLAMES等,需定期更新,至少每季度更新一次

    ·行业专用数据集:根据实际应用需求定期更新,确保评测数据的时效性

    数据质量保障:

    ·数据标注需符合GB/T 42755-2023《人工智能面向机器学习的数据标注规程》

    ·数据需经过清洗和去标识化处理,确保符合隐私保护要求

    ·数据集需覆盖不同背景、场景和领域,避免偏差,保证泛化能力

    3.评测方法实施要点

    为确保评测结果的客观性和可靠性,评测方法实施需注意以下要点:

    评测流程标准化:

    ·制定详细的评测计划,明确评测目标、范围和方法

    ·建立标准化的评测流程,确保评测过程的一致性

    ·记录评测过程中的所有操作和参数,便于追溯和验证

    评测指标权重分配:

    ·根据评测目标调整指标权重,如政务模型需提高安全性的权重

    ·采用多维度综合权衡策略,避免过度追求单一维度

    ·为不同任务设置不同的优先级,如紧急救援场景下提高响应时间的权重

    评测结果分析:

    ·对评测结果进行多角度分析,包括指标分析、任务分析、领域分析等

    ·对比行业基线模型,提供客观参考

    ·识别模型的优缺点,提供针对性的改进建议

以上便是关于GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》的解读,更多内容获取可以随时与我们进行联系。

文章内部底部图片

标签:
您可能还在找这些
cache
Processed in 0.012207 Second.