摘要:近日,加州大学圣地亚哥分校(UCSD)认知科学系的 Cameron R. Jones 和 Benjamin K. Bergen 开展了一项关于大型语言模型的研究。他们通过一系列随机、对照、预先注册的三方图灵测试发现,当被赋予合适的角色扮演提示时,GPT - 4
近日,加州大学圣地亚哥分校(UCSD)认知科学系的 Cameron R. Jones 和 Benjamin K. Bergen 开展了一项关于大型语言模型的研究。他们通过一系列随机、对照、预先注册的三方图灵测试发现,当被赋予合适的角色扮演提示时,GPT - 4.5 和 LLaMa - 3.1 - 405B 这两款大型语言模型首次成功通过经典的三方图灵测试,这成为人工智能发展的又一里程碑。相关研究发布在预印本网站arxiv , 地址:https://arxiv.org/pdf/2503.23674
75 年前,计算机科学先驱艾伦・图灵提出了一个极具开创性的思想实验 —— 图灵测试,也被称为 “模仿游戏”。这个实验旨在探寻一个深刻问题的答案:机器究竟能否思考?或者更准确地说,机器能否展现出与人类毫无二致的智能行为?
在经典的图灵测试中,测试规则十分独特。一位人类裁判,也就是询问者,通过纯文本的交流界面,同时与两个隐藏身份的对话者展开交流。其中一个对话者是实实在在的人类,而另一个则是人工智能程序。这两个对话者都要使出浑身解数,让裁判相信自己是人类。要是裁判无法准确分辨出谁是机器,那么这台机器就被视作通过了测试,意味着它具备了模仿人类进行智能对话的能力。
图灵测试自诞生以来,就在人工智能领域占据着举足轻重却又颇具争议的地位。一方面,它被视为衡量机器智能的一把标尺,尽管这把标尺存在诸多争议;另一方面,它更深层次地触及了 “智能”“意识” 以及 “人性” 这些哲学领域的核心问题。多年来,众多研究者都在不懈努力,试图打造出能够通过图灵测试的系统。然而,几十载光阴流逝,尽管人工智能技术不断取得进步,经典的三方图灵测试(即一个裁判、一个人类、一个机器同时参与)的至高荣誉始终无人能及。像早期著名的 AI 程序 ELIZA,虽然能进行简单的对话交流,但在严格的测试之下,很快就会露出机器的马脚。
不过,近年来大型语言模型(LLMs)如雨后春笋般蓬勃发展,让整个局面发生了根本性的转变。诸如 GPT 系列、LLaMa 系列等大型语言模型,借助在海量文本数据上的深度训练,展现出了令人惊叹的语言理解、生成和推理能力。这也不禁让人们重新燃起对图灵测试的浓厚兴趣:这些先进的人工智能,是否已经接近甚至达到了图灵当年所设定的标准呢?
近期,加州大学圣地亚哥分校(UCSD)认知科学系的 Cameron R. Jones 和 Benjamin K. Bergen 开展了一项严谨且意义重大的研究,其研究成果在人工智能界激起了层层波澜。他们精心设计并进行了一系列随机、对照且预先注册的三方图灵测试,目的就是为了精准评估当前顶尖的大型语言模型在模仿人类对话方面的能力究竟达到了何种程度。
研究团队从众多人工智能系统中挑选出了四个具有代表性的系统参与测试。GPT - 4.5,作为当时最新且能力顶尖的大型语言模型之一,承载着人们对先进人工智能的期待;LLaMa - 3.1 - 405B,凭借其巨大的参数量,展现出强大的语言处理潜力,也是此次测试的重要对象;GPT - 4o 则作为性能较强的基线模型,用于对比参考;而 ELIZA,这个经典的早期聊天机器人程序,则充当低性能基线,主要用于检验测试设置是否合理有效,即判断裁判是否能够准确识别出明显不像人类的 AI。
测试过程严格遵循经典的三方图灵测试设置。每一轮测试中,人类裁判都要与随机匹配的一名人类参与者以及上述四种 AI 系统中的一个,进行时长为 5 分钟的自由文本对话。在这短短 5 分钟内,裁判要从对话中捕捉各种线索。对话结束后,裁判必须迅速做出判断,明确指出哪位对话者是人类,并详细说明判断的理由以及自己对该判断的信心程度。
在研究过程中,研究者们还特别关注 “提示工程” 对大型语言模型表现的影响。他们为 GPT - 4.5 和 LLaMa - 3.1 设计了两种截然不同的系统提示。无角色提示(NO - PERSONA)相对简洁,仅仅包含一些基本指令,告知模型其目标是努力说服裁判自己是人类,同时提供一些诸如测试界面、近期事件等背景信息。而角色提示(PERSONA)则丰富得多,除了基本指令外,还要求模型扮演一个特定的角色 —— 一个性格有点内向、对网络文化了如指掌且会熟练使用俚语的年轻人。这个角色设定可是经过初步探索性研究后确定的,因为发现这种角色设定下模型的表现最为出色。这样的设计主要是为了探究一个关键问题:大型语言模型仅仅依靠自身的基础能力,是否就足以成功 “欺骗” 人类?还是说,需要借助特定的 “角色扮演” 指令,才能更好地模拟人类的思维和表达模式?
这项研究为确保结果的可靠性和普适性,分别在两个不同的人群中展开测试。UCSD 的本科生群体,他们拥有较为一致的知识背景和文化环境;在线众包平台 Prolific 的参与者,这一群体更加多样化。总共对 1023 场有效的测试对话进行了深入分析,最终得出的结果令人震惊。
当 GPT - 4.5 被赋予特定的角色提示时,其表现堪称惊艳。在所有测试中,它被裁判判定为人类的比例竟然高达 73%!这个比例远远超过了 50% 的随机猜测水平,甚至比裁判选择真正人类参与者的比例(约为 27%)还要高出许多。这就意味着,在直接的对比中,经过 “角色扮演” 训练的 GPT - 4.5 在裁判眼中,比真正的人类看起来 “更像人”。同样使用角色提示的 LLaMa - 3.1,表现也不容小觑,被判定为人类的比例达到了 56%。这个比例与人类参与者的胜率(约为 44%)在统计学上没有显著差异,这清晰地表明,裁判们很难可靠地区分这个模型和真正的人类。
作为对比,老牌聊天机器人 ELIZA 和未获得角色提示的 GPT - 4o 的胜率分别只有 23% 和 21%,明显低于随机水平。这有力地证明了测试设置是科学有效的,裁判完全能够识别出那些不够 “像人” 的 AI。同时,没有获得角色提示的 GPT - 4.5 和 LLaMa - 3.1 的表现也大打折扣,胜率分别仅为 36% 和 38%。虽然在 Prolific 人群中它们与人类难以区分,但在彼此更加熟悉、文化背景更为相近的 UCSD 学生群体中,就难以蒙混过关了。
基于图灵测试 “无法区分即通过” 的核心逻辑,这项研究得出了一个具有历史意义的结论:当被赋予合适的角色扮演提示时,GPT - 4.5 和 LLaMa - 3.1 - 405B 均成功通过了经典的三方图灵测试。尤其是 GPT - 4.5 的突出表现,其胜率显著高于人类,为 “AI 通过图灵测试” 这一结论提供了迄今为止最为有力的实证证据。而且,这一结果在两个不同的人群中都得到了重复验证,进一步增强了结论的可靠性。
这一结果无疑是人工智能发展历程中的一个重要里程碑,但它也促使我们进行更深层次的思考:通过图灵测试,到底意味着什么?
从裁判给出判断的理由分析中,我们发现了一个有趣的现象。裁判们在判断时,更加关注对话者的语言风格是否自然、对话是否流畅连贯、是否具有独特个性以及情感表达是否真挚等社交和情感因素,而不是像我们传统认知中那样,侧重于考察对方的知识储备是否丰富或逻辑推理是否严密。例如,在测试过程中,很少有裁判会通过出数学题或进行知识问答来判断对方是人还是机器。更有意思的是,有时候 AI 表现出的 “无知” 或 “不完美”,比如不知道校园里某个具体地点的位置,或者不了解最新流行的俚语,反而会被裁判认为是人类的特征。因为在大家的潜意识里,过于全知全能的表现反而显得 “不像人”。这一现象清晰地表明,在现代社会中,人们潜意识里可能将 “社交智能” 或者 “表现得像人”,视为区分人与机器的关键因素,而非传统意义上的智力。
研究结果还明确显示,要是没有经过精心设计的 “角色提示”,即便像 GPT - 4.5 和 LLaMa - 3.1 这样强大的大型语言模型,也很难稳定地通过测试。这充分说明,当前的大型语言模型能够通过测试,在很大程度上依赖于人类的引导,需要人类为其设定特定的角色,从而模拟特定的人类行为模式。但这并不算是 “作弊”,就如同早期的 AI 依赖程序员设定规则一样。大型语言模型的强大之处恰恰在于其拥有出色的灵活性和适应性,能够根据人类给出的提示,迅速调整自己的行为模式,模仿各种各样的人类角色。
当然,我们也必须承认图灵测试存在一定的局限性。此次测试中 5 分钟的测试时间相对较短,在这么短的时间内,可能无法完全揭示 AI 的破绽。未来的研究可以考虑从多个方面进行改进和拓展,比如尝试更长时间的测试,引入 AI 或心理学方面的专家作为裁判,或者增加测试的风险(如给予奖励)等。不过,尽管存在这些局限性,图灵测试作为一种互动式、对抗性的评估方式,对于当前越来越依赖静态、标准化基准测试的 AI 评估体系而言,仍然是一种非常有益的补充。它更加侧重于人机交互的实际体验以及 AI 的 “社会性” 表现,这是其他评估方式难以替代的独特价值。
无论通过图灵测试是否就等同于拥有了 “真正” 的人类智能,这项研究的结果都具有直接且深远的社会和经济意义。它明确地表明,当前公开可用的顶级大型语言模型已经具备在短时对话中替代真实人类的能力,而且对方很可能完全察觉不出异样。
从经济层面来看,那些依赖简短人际交流的经济活动,比如部分客服工作、在线支持服务、社交媒体互动等领域,可能会逐渐被这些人工智能无缝替代或补充。这在带来效率大幅提升的同时,也必然会对就业市场产生一定的冲击。许多原本由人类承担的工作岗位,可能会因为人工智能的高效和低成本而逐渐被取代,这就要求相关从业者必须不断提升自己的技能,以适应这种变化。
从社会层面来讲,这些能够以假乱真模仿人类的 “冒牌人类”,可能会越来越多地渗透到我们的社交生活中。无论是网络上的陌生人,还是现实中的朋友、同事甚至伴侣,我们与他们交流时,真假难辨的界限可能会变得越来越模糊。人们或许会在不知不觉中花费更多时间与这些 “人类模拟器” 进行互动,就像如今社交媒体在一定程度上已经替代了现实社交一样。这种变化可能会对我们的社交关系和社交模式产生深远的影响,我们需要重新审视和调整自己与他人、与机器的互动方式。
然而,风险也随之而来。能够有效模仿人类并获得信任的人工智能,一旦被不法分子利用,可能会被用于欺诈、社会工程、传播虚假信息或进行大规模舆论操控等不良行为。人工智能的 “说服力” 和 “欺骗性” 已经成为了亟待研究和解决的新问题。我们必须尽快建立起完善的监管机制和技术防范手段,确保人工智能的应用始终在合法、合规、符合道德伦理的轨道上进行。
大型语言模型首次成功通过严格的、经典的三方图灵测试,这一重大突破标志着人工智能在模仿人类对话能力方面达到了一个全新的高度。这不仅是对阿兰・图灵 75 年前伟大设想的有力回应,更促使我们不得不重新审视 “智能” 的定义究竟该如何界定、人机交互的未来将走向何方,以及在这个日益被 AI 参与塑造的世界中,我们人类该如何自处。这项突破无疑是激动人心的,但它也伴随着深刻的伦理和社会挑战。在未来的日子里,我们需要更深入地去理解这些强大人工智能的能力边界,提前为它们可能带来的深远变革做好充分准备。人与机器之间的界限,从未像今天这样模糊,也从未像今天这样引人深思,而我们也必将在探索中不断前行,寻找人与人工智能和谐共处的最佳路径。
来源:人工智能学家