建设“可信AI”评测体系,推动人工智能高质量与可持续发展

B站影视 内地电影 2025-09-29 17:01 1

摘要:2025年8月,国务院发布《关于深入实施“人工智能+”行动的意见》,在推动人工智能与科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作六大重点领域应用方面部署了一系列重点行动,提出要在模型、数据和算力等八个方面强化基础支撑能力。

2025年8月,国务院发布《关于深入实施“人工智能+”行动的意见》,在推动人工智能与科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作六大重点领域应用方面部署了一系列重点行动,提出要在模型、数据和算力等八个方面强化基础支撑能力。

在全社会推动人工智能规模化应用的过程中,既要在需求侧开辟广阔的应用场景,也要在供给侧培育一大批值得信赖的人工智能技术产品,二者相辅相成。科学权威的人工智能产品和服务评测,在这种双向赋能中扮演着极其重要的链接和催化作用,是提升市场透明度、增强产业信心的关键机制。

一、人工智能技术产品必须“值得信赖”

为什么要对人工智能产品和服务开展评测?核心目的是通过客观科学的评测,回答用户最关心的问题,确保产品和服务质量符合预期,提升市场透明度,增强社会对人工智能技术的信心。

近年来,国内外围绕这方面的讨论和实践很多,综合起来看,“可信或值得信赖(Trustworthiness)”逐渐成为各方面对人工智能技术的共同期待。美国国家标准与技术研究院(NIST)在2023年发布了《AI风险管理框架1.0(AI RMF 1.0)》以促进可信赖和负责任的人工智能系统开发与使用;在2025年进一步发布了《人工智能测试、评估、验证与确认标准零草案大纲(Outline: Proposed Zero Draft for a Standard on AI Testing,Evaluation,Verification, and Validaton)》,旨在构建统一、系统的人工智能评测框架,以支撑对人工智能系统在不同生命周期阶段的质量控制和风险判断。欧盟在2019年发布了《可信AI的伦理准则(Ethics Guidelines for Trustworthy AI)》,提出了可信AI的基本条件、伦理准则、关键要素等,随后在2024年制定的全球首部人工智能法规《人工智能法案》中,通过采用基于风险的分级监管体系将可信AI的相关原则转化为具备强制力的法律义务。

国际标准化组织/国际电工委员会(ISO/IEC)在其技术报告TS 5723:2022“Trustworthiness — Vocabulary”中,将“可信(Trustworthiness)”定义为“以可验证的方式满足利益相关方期望的能力(ability to meet stakeholders’ expectations in a verifiable way)”。可信的概念可以应用于一项服务、一款产品,也可以应用于企业,其具体要求可以落实到一揽子特征上,包括:可问责性、准确性、真实性、可用性、可控性、完整性、隐私、质量、可靠性、韧性、鲁棒性、安全性、透明性等。

进一步来看,不同利益相关方对人工智能的“可信”期待有所差异:政府更关注安全与合规,企业更强调稳定性与可控性,用户则重视可靠性、透明性与可解释性。多维度的要求共同构成了“可信AI”的完整内涵,但总体上可以归结为一条:“可验证”的承诺。

在人工智能产品评测中推行“可信”要求,有利于行业用户科学地开展产品选型,有利于真正优秀的技术产品脱颖而出,有利于促进市场良性竞争避免“劣币驱逐良币”,也有利于通过评测标准的迭代打造“场景——技术”创新飞轮。

具体谈到人工智能技术产品的“可信”要求,可以从基础设施、技术、数据、应用、安全等各层面考虑。(1)基础设施层面,需要更大规模、更高复杂度、更可靠更稳定、同时软硬协同更加紧密的智能化算力集群以及配套的硬件设施、软件平台等;(2)数据层面,在确保隐私、安全性的前提下,需要结合业务场景构建大规模高质量的行业企业数据集,并建设全流程的人工智能数据工程体系;(3)技术层面,需要有效处理算法模型幻觉、鲁棒性、可解释性对业务流程的挑战并保持快速迭代;(4)应用层面,需要部署新的应用平台、工具链、智能体,并与现有业务系统高效可靠集成;(5)安全层面,需要精细化应对人工智能带来的新的安全风险挑战,保障安全合规应用。

二、建设“可信AI”评测体系

中国信息通信研究院(简称“中国信通院”)长期深耕信息通信领域测试关键技术研究和实践,在人工智能评测方面积累了深厚的研究基础,拥有“人工智能关键技术和应用评测工业和信息化部重点实验室”。近年来,中国信通院参考国际电信联盟(ITU)、ISO/IEC的相关研究以及美国、欧盟的可信AI实践,重点结合我国人工智能发展需求,构建了“可信AI”评测体系,涵盖自然语言、计算机视觉、智能语音、机器学习、大模型等人工智能算法及应用,已积累测试数据集600余万条,覆盖20多种能力维度以及80多种安全攻击模板,拦截关键词500余万,形成一套覆盖范围全、评测指标精、需求映射准的人工智能测试评估体系,常态化开展主流国内外人工智能、大模型测试,并根据技术产业发展不断迭代优化。

目前,从评测对象看,“可信AI”评测体系已构建成为覆盖核心要素(算力/算法/数据)能力评测、基准测试、平台与应用技术评测、行业应用评测、安全评测在内的人工智能全栈评测体系,如下图所示。

“可信AI”评测体系(2025年8月)

● 基础软硬件评测——主要衡量芯片、服务器、智算集群、边端设备、开发框架、训推系统等的软硬件协同能力、兼容适配能力、国产化适配能力等,满足各类关键部件、计算设备、智算系统、系统软件产品、应用方案的测试需求。

●高质量数据集评测——对数据标注、开发管理、合成数据、数据集质量的人工智能数据生产应用全链条开展评测。发布人工智能数据集质量评估体系ADAQ,可对通用基础数据集、专业通识类数据集、行业通识类数据集等开展质量评估。

● 基础大模型评测——主要对语言大模型、视觉大模型、语音大模型、多模态大模型在模型开发、模型能力、模型应用、模型运营的能力进行评测。

● 性能与安全基准测试——主要对基础软硬件、大模型、智能体、具身智能的性能以及人工智能安全能力开展基准测试,具体包括“AISHPerf”人工智能软硬件基准测试、“方升”大模型基准测试、智能体基准测试、具身智能基准测试、AI Safety Benchmark大模型安全基准测试等。

● 平台及工具评测——重点对人工智能开发部署必需的训练开发平台、部署推理平台、计算资源平台、计算运维平台、一体机、检索增强生成工具等开展评测。

● 模型即服务(MaaS)评测——对大模型应用开发平台、服务平台、管理平台开展评测,支持对大模型API服务的性能、安全性、稳定性、兼容性等开展专项测试。

● 智能体评测——对智能体开发的工具平台、各类行业智能体或通用智能体开展评测。构建“可信AI智能体测试床”,支持MCP的协议验证测试、单智能体的基准测试以及多智能体的协同测试等。

● 具身智能评测——构建了从系统研发支撑(如系统总体架构、数据集质量、训练场能力评估、开发平台等)、到能力验证(如基准测试方法、智能化分级分类等)再到集成应用(如家庭陪伴等)的全链条具身智能评估体系。

● 安全评测——构建了从AI基础设施安全(如:一体机安全)、AI模型算法安全(如:大模型安全性、鲁棒性、幻觉)、AI典型应用安全(如:人脸识别安全、智能体安全)、AI赋能安全能力(如:深度合成内容检测、网络安全)的全栈AI安全评测能力。

● “AI+产品”评测——对人工智能赋能的智能软件、智能助手、数字人等软件产品以及智能手机、智能机器人等硬件产品开展评测。

● “AI+场景”评测——对人工智能在知识管理、数据分析、智能搜索、智能推荐、智能客服、智能办公等场景开展评测。

● “AI+行业”评测——结合金融、政务、能源、制造、石化、汽车、文旅、教育等重点行业的应用场景,开展行业大小模型以及相关应用评测。

从评测体系建设和运转机制上看,为满足需求方、供给方等各利益相关方的期望,“可信AI”评测体系强调“可验证方式”的实际落地,并通过以下举措确保被测产品评测结果的可验证性。

● 在评测管理机制上,严格遵循工业和信息化部、国家市场监督管理总局国家认证认可监督管理委员会对中国信通院的测试实验室质量管理体系要求,对测试标准、人员与过程进行严格把控,以“科学、公正、客观、准确”为原则执行测试并出具报告,确保全流程可问责、真实、透明。

●在评测类目确定方面,依托中国人工智能产业发展联盟(AIIA),通过调研、研讨会、沙龙等形式广泛征集行业测试需求,并随人工智能产业发展动态快速迭代。

● 在评测标准制定过程中,依托AIIA先行开展可行性研究,通过技术报告、研究报告等凝聚产业共识,随后在工业和信息化部人工智能标准化技术委员会、AIIA框架下制定相关行业标准、联盟标准等。

● 在具体评测指标和评测方法设计上,结合ISO/IEC TS 5723:2022定义的特征集,针对不同评测类目,重点评估技术产品的功能、性能、可用性、可靠性、鲁棒性、安全性等;针对基准测试等高要求场景,通过构建大规模测试数据集,结合自动化测试工具、统计分析工具等,保障测试的准确性、真实性、可控性、完整性等。

三、 “可信AI”评测的价值与作用

“可信AI”人工智能评测体系自构建以来,已经为几百家大型科技企业、AI创业企业、行业企业提供评测服务超千次,为促进人工智能产业高质量发展发挥了重要作用。

为需求方提供科学决策依据:“可信AI”人工智能评测体系自构建以来,不断顺应产业发展,迭代升级评测方法、评测标准、评测工具,通过构建全面、客观的评估指标,为需求方提供科学的选型依据、验收依据,帮助需求方筛选出真正符合自身场景需求的产品,避免因选择不当而带来的风险,加速智能应用的落地。在一些项目的招投标中,不少需求方已经明确将“可信AI”的标准和评测认证列为项目应标的必答项。

为供给方提供创新优化标尺:人工智能技术供给方在行业落地的过程中,经常面临个性化需求多、标准产品定义挑战大、定制化方案复杂多样、交付标准量化难等挑战。“可信AI”人工智能评测体系在形成的过程中,与行业需求方共研落地路线图、方法论,并以此为指导,在具体评测标准、评测方法中不断吸收行业侧意见,形成切实可落地的“度量尺”,供给方通过评测可清晰了解自身产品的优势和不足,从而针对性改进,提升产品竞争力,并通过与优秀企业的对标,学习先进经验,加速自身技术迭代升级。

为产业提供安全与合规保障:“可信AI”人工智能评测体系帮助产业更好地理解和把握人工智能大模型技术的发展趋势,并通过制定统一的技术标准和测试规范,促进产业内部的良性竞争和协同发展,也帮助产业筛选出可信的人工智能产品服务,树立可推广、可复制、高价值的标杆产品应用,加速产业化进程,实现技术、应用与产业的协同发展。

四、总结与展望

建设科学、权威的“可信AI”评测体系,是响应国家战略、顺应全球趋势的关键举措。中国信通院通过从基础设施、数据、技术、应用、安全等维度构建“可信”标尺,既能为需求方提供可靠的“决策依据”,也能为供给方提供“创新指南”。

面向未来,“可信AI”评测体系将持续演进迭代,不断加强多模态模型、自主智能体和具身智能等新兴技术产品测试研究,进一步深化人工智能产品安全和安全产品的测试,推动评测技术的自动化与智能化升级,构建开放与国际化的评测生态。

中国信通院

人工智能研究所

来源:中国信通院

相关推荐