摘要:人工智能在通过专业资格考试方面已展现出惊人能力——它们能够通过法律资格考试、金融分析师认证,甚至在标准化测试中取得与人类相当的成绩。然而,一个令人不安的悖论正困扰着整个行业:这些在考场上表现卓越的AI系统,在处理真实世界任务时却频频失误。多名律师因提交AI生成
信息来源:https://www.nature.com/articles/d41586-025-03471-0
人工智能在通过专业资格考试方面已展现出惊人能力——它们能够通过法律资格考试、金融分析师认证,甚至在标准化测试中取得与人类相当的成绩。然而,一个令人不安的悖论正困扰着整个行业:这些在考场上表现卓越的AI系统,在处理真实世界任务时却频频失误。多名律师因提交AI生成的法律文件而遭到法庭制裁,这些文件不仅曲解了法律原则,还引用了根本不存在的判例。这一现象促使研究者重新审视当前的AI评估方法,并提出一个根本性问题:我们是否需要一套全新的标准来衡量人工智能的真实能力?
在今年十月发表于《自然》杂志的评论文章中,AI研究者维奈·乔杜里提出了一个颇具挑战性的建议:建立一种基于专家访谈的新型评估机制,以替代目前过度依赖的自动化基准测试。这一提议源于今年三月在费城举行的美国人工智能促进协会研讨会上的讨论,核心理念是让领域专家通过广泛互动来判断AI系统是否真正理解知识,还是仅仅在模仿理解的表象。
当前AI评估体系的核心缺陷在于,标准化测试未能准确衡量预期技能。这种现象在评估理论中被称为"间接失败"——测试分数与实际能力之间存在严重脱节。一个典型案例是金融领域:AI模型能够通过特许金融分析师考试——这项以难度著称的专业认证,其通过率通常仅为百分之五十五至六十五。根据今年发布的研究报告,包括OpenAI的o4-mini和谷歌的Gemini 2.5 Pro在内的多款AI模型,不仅通过了CFA三级考试,在论文部分的得分甚至高达百分之七十九点一和百分之七十五点九。
然而,这些在考试中表现优异的AI系统在执行入门级金融分析师的日常任务时却捉襟见肘。它们难以处理现实工作中常见的非结构化数据、复杂的情境判断和需要综合多方信息的决策场景。同样的矛盾也出现在法律领域:斯坦福大学和其他机构的研究显示,AI工具在法律考试的选择题、简答题和论述题中都能取得与人类相当的成绩,但在起草真实法律文件时却会犯下任何获得类似考试成绩的人类律师都不会犯的低级错误。
法律界的惨痛教训为这一问题提供了警示。今年九月,一名澳大利亚维多利亚州的律师成为该国首位因在法庭案件中使用AI生成内容而受到职业制裁的专业人士。在加拿大,阿尔伯塔上诉法院裁定一名禁止其律所使用AI工具的律师,需要对承包商使用AI产生的"幻觉"错误承担责任——这些错误包括在家庭法案件的事实陈述中引用虚假的法律援引。根据多个追踪数据库的统计,此类AI幻觉案件在全球范围内持续增加,从美国到加拿大,从澳大利亚到欧洲,律师们因未能核实AI生成内容的准确性而面临从五千美元罚款到职业资格暂停的各种处罚。
这种考试表现与实际能力之间的巨大鸿沟揭示了现有评估方法的系统性问题。标准化测试主要评估的是模式识别和信息检索能力——AI系统恰好在这些方面表现出色。但真实世界的专业实践需要的是情境理解、判断力、识别歧义和矛盾的能力,以及在不确定性中做出合理推断的智慧。这些深层认知能力很难通过选择题或论述题来准确测量。
乔杜里提出的解决方案是建立一种他称之为"现代图灵测试"的评估机制。其核心思想是让领域内的顶尖专家通过深度、开放式的对话来评估AI系统的知识水平。以法律领域为例,他建议设立"桑斯坦测试"——以哈佛大学法学院著名学者卡斯·桑斯坦命名。一个AI法律助手要证明其真正具备专业能力,就需要通过桑斯坦这样的权威专家的严格面试。这种面试不设严格时间限制,允许专家根据AI的回答进行追问、挑战其逻辑、要求澄清模糊之处,并测试其在复杂情境下应用法律原则的能力。
这种方法与传统标准化测试的根本区别在于互动性和情境性。当一个AI系统在标准测试中给出错误答案时,评分系统会简单地扣分并继续下一题;但在专家访谈中,错误答案会引发进一步的探究——专家会询问推理过程、要求提供支持证据、或者提出反例来测试系统是否真正理解底层原则。值得注意的是,乔杜里强调,AI出现所谓的"幻觉"错误并不会自动导致测试失败。在某些情况下,这些错误可能代表创新性思维或对模糊问题的合理探索。关键在于AI系统能否在专家的追问下承认不确定性、修正错误、并展示对问题边界的理解。
为了避免单一专家的个人偏见或意识形态倾向,这种评估应该采用多元化的专家小组。在法律领域,这意味着不仅要有学术界的理论权威,还应包括税务律师、宪法律师、法庭书记员、交通警察和法律援助人员等来自实务一线的专业人士。每个专家从其独特的角度提出问题,综合评估AI系统的知识广度和应用深度。这种多元化设计还能防止AI系统仅仅学会模仿某个特定专家的风格或观点,而是要求其展现对领域知识的全面、灵活掌握。
这一构想可以轻松推广到其他专业领域。乔杜里建议在金融领域建立"戴蒙测试",以摩根大通首席执行官杰米·戴蒙命名,他以对金融服务行业的深刻洞察而闻名。类似地,医疗AI可以接受顶尖临床医生的面试,工程AI接受资深工程师的评估。这种方法的吸引力不仅在于其严格性,还在于其公众可见性。正如二〇一一年IBM让其超级计算机沃森参加美国热门智力竞赛节目《危险边缘》,与人类冠军同台竞技一样——那场比赛吸引了数百万观众,成为AI能力展示的里程碑事件——公开的专家访谈也能让公众直观理解AI的真实能力边界。
想象一下,如果美国最高法院的大法官公开质询一个AI法律助手,或者顶尖医学专家对AI诊断系统进行现场测试,这将极大提升公众对AI技术的理解,同时也为开发者提供清晰的改进方向。斯坦福大学二〇二五年AI指数报告显示,虽然AI在各种基准测试上的表现持续提升——在MMMU、GPQA和SWE-bench等具有挑战性的基准上都取得了显著进步——但这些数字化的分数增长并未转化为相应的实际应用能力提升。OpenAI今年推出的GDPval评估试图通过测量模型在四十四个职业的实际任务中的表现来弥补这一差距,但即便是这种更贴近现实的测试,也无法完全替代人类专家的综合判断。
当前AI评估的另一个关键问题是"基准饱和"现象。研究机构不断开发新的测试基准,但AI系统很快就能在这些测试上达到高分,促使研究者设计更难的测试,形成一种军备竞赛般的循环。例如,ARC-AGI基准最初设计用于测试AI的流体智能——即推理、解决新问题和适应新情境的能力。当OpenAI的o3模型在ARC-AGI-1上取得百分之八十七点五的突破性高分,远超之前百分之五十五点五的最佳纪录时,许多人认为这标志着向通用人工智能迈出了重要一步。然而,当ARC-AGI-2发布后,同样的o3模型得分仅为百分之二点九。这种剧烈波动说明,即便是精心设计的基准测试也难以全面、稳定地衡量AI的真实智能水平。
专家访谈式评估的价值不仅在于更准确地衡量AI能力,更在于其能够识别自动化测试难以捕捉的细微问题。例如,AI系统可能掌握了某个领域的大量事实性知识,但在判断何时应用哪些知识、如何权衡相互冲突的原则、或者如何处理边缘案例时仍然表现不佳。人类专家通过对话能够探测这些深层认知能力,而多项选择题或标准化论述题则往往无法触及这些层面。
此外,专家访谈还能评估AI系统的元认知能力——即对自身知识边界的认识。一个真正可靠的专业AI助手应该能够识别自己不确定的领域,承认知识的局限性,并在必要时建议寻求人类专家的帮助。这种自我意识在当前的基准测试中很少被评估,但在实际应用中却至关重要。多起AI幻觉导致的法律制裁案件中,问题的根源不仅在于AI生成了错误信息,更在于它以极高的自信程度呈现这些错误,误导用户相信其准确性。
实施这种新型评估体系面临诸多挑战。最明显的是成本和可扩展性——专家的时间是有限且昂贵的资源,无法像自动化基准测试那样大规模、高频率地进行。乔杜里建议建立一个由科技公司资助的基金会,搭建共享平台,使各个领域都能进行结构化的AI访谈并公布结果。这个平台可以借鉴Kaggle(举办公开竞赛以提升AI能力的平台)和MLCommons(制定标准并构建评估机器学习性能工具的社区)的成功经验。通过标准化的访谈协议、录像记录和专家评分标准,可以在保持评估质量的同时提高效率。
另一个挑战是如何确保评估的公平性和一致性。不同专家可能有不同的提问风格、评判标准和专业侧重,这可能导致评估结果的差异。解决方案包括制定详细的评估框架、对专家进行培训、建立校准机制以及使用多位专家的综合评分。同时,评估过程应该是透明的——访谈内容应该公开或至少对学术界开放,使得评估结果可以被独立验证和讨论。
值得注意的是,专家访谈评估并非要完全取代现有的基准测试,而是作为重要补充。自动化基准在研发过程中仍有其价值——它们能够快速、低成本地追踪系统改进的方向,并在大量样本上测试一致性。但当涉及到对AI系统能力的重大声明,特别是在将其部署到高风险应用场景之前,专家评估应该成为必需的验证步骤。
随着大型科技公司越来越频繁地宣称在通用人工智能领域取得进展——OpenAI、DeepMind、Anthropic等公司都暗示其最新模型已接近或达到某种形式的AGI——建立严格、可信的评估标准变得愈发紧迫。当一家公司声称其AI系统具备人类水平的专业能力时,公众、监管机构和潜在用户有权要求看到比基准测试分数更有说服力的证据。让系统接受领域顶尖专家的公开检验,正是建立这种信任的有效途径。
这场评估范式的变革反映了AI发展阶段的转变。在早期,当AI系统还在努力完成基础任务时,简单的基准测试足以指导研发方向。但随着系统能力接近人类水平,评估方法也必须升级到能够捕捉专业实践中的细微之处、判断力和情境适应性。正如医学生不是仅凭考试成绩就能获得行医执照,而需要经过临床实习和资深医生的直接监督,AI系统在被信任处理高风险专业任务之前,也应该接受类似的严格审查。
从法庭上的尴尬失误到金融分析中的表现差距,当前AI系统在实际应用中暴露的问题清楚表明,我们需要更好的方法来理解和评估这些技术。专家访谈式评估提供了一条有前景的路径,它不仅能更准确地衡量AI的真实能力,还能促进开发者、使用者和公众之间关于AI局限性的坦诚对话。在AI技术快速演进的时代,建立这种基于深度理解而非表面指标的评估文化,或许是确保技术以负责任方式发展的关键一步。
来源:人工智能学家
