人工智能评测新范式:解锁AI性能的可解释力与预测力

B站影视 欧美电影 2025-03-27 19:31 1

摘要:人工智能已广泛渗透至众多领域,但其性能的可解释性和可预测性方面仍有极大欠缺,因此需要一种能同时兼顾可解释力与预测力的评估方法,帮助锁定人工智能在任务中失败的原因并指导部署。近日,由剑桥大学、微软亚洲研究院、瓦伦西亚理工大学、美国教育考试服务中心、卡内基梅隆大学

编者按:人工智能已广泛渗透至众多领域,但其性能的可解释性和可预测性方面仍有极大欠缺,因此需要一种能同时兼顾可解释力与预测力的评估方法,帮助锁定人工智能在任务中失败的原因并指导部署。近日,由剑桥大学、微软亚洲研究院、瓦伦西亚理工大学、美国教育考试服务中心、卡内基梅隆大学、普林斯顿大学等机构组成的跨学科研究团队联合提出了一种全新的评估范式,首次实现了解释力与预测力的协同突破。这一新方法不仅能精准解释具体任务中的失效缘由,还能有效推演大模型在未测试领域的潜在表现,为破解 AI “黑箱”难题以及推动其可靠部署提供了关键的科学理论支撑。

随着人工智能的快速发展,通用型人工智能(如大语言模型)在诸多领域都表现出色,包括可以解决复杂的数学问题,但由于其存在不可解释性以及不可预测性,所以在基础算术等简单任务上仍可能出现失误。这对人工智能的评估提出了重大挑战——亟需发展可解释与可预测的评估方法,以明确系统失败的原因,并指导进行可靠部署。然而,目前尚无可以同时满足这两点要求的评估范式。

传统以性能为导向的评估方法在个体任务实例层面均缺乏解释力与预测力。例如,某一模型在 AIME (American Invitational Mathematics Examination) 等流行的数学基准测试上取得了79.8%的平均性能,但这一数据无法预测或解释其对单个任务的表现,也难以推测其在其他测试中的能力。相比单纯的分数汇总,学术界也曾探索如心理测量学等方法来刻画人工智能的能力,但这些方法仍未能兼顾可解释性和预测性。

由剑桥大学、微软亚洲研究院、瓦伦西亚理工大学、美国教育考试服务中心、卡内基梅隆大学、普林斯顿大学等机构组成的跨学科研究团队,近期提出了一种创新性的人工智能评估范式:通过制定通用能力量表来详细刻画基准和大模型,来实现解释和预测。该研究突破了传统评估方法的局限,为人工智能的可靠部署奠定了坚实的基础。

General Scales Unlock AI Evaluation with Explanatory and Predictive Power

论文链接:

图1:解释和预测新系统与基准性能的流程。“系统流程”(上图):评估每个新 AI 系统的步骤——(1) 在标注需求级别(ADeLe)测试集上运行新系统,(2) 绘制所有能力维度的特征曲线并提取系统的能力概况(可选),(3) 使用标注级别作为输入训练简单评估器,以预测系统在新任务实例上的表现。“任务流程”(下图):每个新任务或基准的步骤——(A) 使用标准的 LLMs 将需求级别标注(DeLeAn)标准应用于新任务,(B) 获取需求直方图和需求概况,解释任务所需的需求(可选),(C) 为任何在“系统流程”后建立了评估器的系统预测新任务的表现。

ADeLe:通用能力量表的标注需求层级框架

研究员们首先构建了18个人类可理解的通用能力量表,其中涵盖11项基础认知能力、5类知识领域及2项外部干扰因素(详见表1)。每个量表定义了从层级0到层级5的递进式需求标准,层级越高表明任务对该能力的高阶要求越强。例如,在"形式科学知识(KNf)"量表中,层级0表示任务无需形式科学知识即可解决,而层级5则要求具备研究生及以上水平的专业知识。

表1:标准集中18个通用能力量表的描述(范围从0到5)

基于上述框架,研究员们采用 GPT-4o 对来自20个基准测试的63项下游任务共计1.6万个实例进行全维度需求层级标注,构建了 ADeLe(Annotated-Demand-Levels)v1.0 数据集,其包含所有1.6万个任务实例和需求标注。ADeLe 数据集巧妙地将大量不同基准的任务实例放置在同一个可比空间中,使科研人员能够在评估任何大语言模型的能力和局限性时,解锁解释力和预测力。图2直观展示了 ADeLe 数据集中五个实例和它们的标注。

图2:使用 DeLeAn 标准对五个示例的级别标注

解释力与预测力的双重突破

基于 ADeLe 测试集,研究团队开展了三项核心分析,揭示了若干重要发现:

1. 通过任务需求概况揭示AI基准测试的固有缺陷

通过对20个基准测试的需求层级进行分析,研究发现所有基准均存在概念效度缺失问题——既不能有效测量其宣称的目标能力(特异性不足),也未能在目标能力维度上覆盖足够的难度范围(灵敏度不足)。例如,“公务员考试”基准 (Civil Service Examination)声称能够测量逻辑推理能力,但从任务需求概况(图3)来看,任务的成功完成同时高度依赖知识储备、元认知等其他能力。另外一个例子是“时间推理”基准 (TimeQA),其推理能力需求层级分布过于集中,无法有效区分不同任务需求层级或难度水平。采用 ADeLe 方法论优化基准设计,可以通过构建精确的任务需求概况确保基准测试的结构效度,明确界定其测量目标并评估其适用边界。

图3:ADeLe 测试套件 v.1.0 所包含的20个基准测试的需求分布情况

2. 大语言模型能力概况的深度解析

研究员们绘制了15个主流大语言模型在18个能力维度的受试者特征曲线(SCC),此曲线描述了大模型在不同能力需求层级上的正确率并拟合了逻辑函数。这类曲线可以使15个不同 LLMs 的能力优缺点得到全面描述(图4)。

图4:15个 LLMs 在18个需求维度上的特征曲线

此外,通过计算每个维度的能力得分总结 SCC,再按照心理测量学的传统,将其定义为 SCC 中成功概率为0.5的 x 值(斜率/信息量最大的点),就产生了许多见解。这些见解主要有:1. 新的 LLMs 整体能力优于旧的 LLMs,但对于所有能力,这一结论并非总是成立;2. 知识能力主要由模型大小和蒸馏过程的变化决定和限制;3. 推理、学习和抽象以及社交能力在“推理”模型中得到了改善;4. 规模法则(Scaling Law)对非推理类模型的边际效益呈递减趋势。

3. 优于黑箱的实例级性能预测模型

研究员们以需求层级向量为输入特征,训练了随机森林分类器作为评估员去预测 LLMs 在新任务实例中的表现。实验表明,该模型在分布内外数据中均实现了优异的预测性能:在对前沿模型的预测中,AUROC(Area Under the Receiver Operating Characteristic Curve)值最高达0.88,且校准误差接近完美,显著优于基于 GloVe 词向量与微调 LLaMA-3.1-8B 的黑箱基线方法,尤其是在分布外数据上。这进一步验证了该新范式的科学性。

目前,该方法已成功应用于15个主流 LLMs 的评估。研究团队计划将其扩展至多模态、具身智能等场景,为人工智能研发、政策制定与安全审计提供科学化、标准化的评估基础设施。

此项工作首次实现了解释力与预测力的协同突破,标志着人工智能评估科学的一个重要进展。通过构建可扩展的协作社区,该方法将持续推动人工智能系统性能与安全性的可解释性与可预测性,为应对通用型人工智能快速发展带来的评估挑战提供关键的方法论支撑。

来源:微软亚洲研究院

相关推荐