摘要:在一项等待同行评审的新预印本研究中,研究人员报告称,在图灵测试的三方版本中,参与者同时与人类和人工智能聊天,然后评估哪个是哪个,当 OpenAI 的 GPT-4.5 模型被指示采用角色时,73% 的时间被认为是人类。这明显高于 50% 的随机概率,这表明图灵测
图片来源: Getty / Futurism
业界领先的大型语言模型之一已经通过了图灵测试,这是长期以来衡量人类智能的指标。
在一项等待同行评审的新预印本研究中,研究人员报告称,在图灵测试的三方版本中,参与者同时与人类和人工智能聊天,然后评估哪个是哪个,当 OpenAI 的 GPT-4.5 模型被指示采用角色时,73% 的时间被认为是人类。这明显高于 50% 的随机概率,这表明图灵测试已被彻底击败。
该研究还评估了 Meta 的 LLama 3.1-405B 模型、OpenAI 的GPT-4o 模型,以及80 年前开发的早期聊天机器人ELIZA 。
加州大学圣地亚哥分校语言与认知实验室的研究员、主要作者卡梅伦·琼斯 (Cameron Jones) 在一篇关于这项工作的 X 帖子中写道:“在区分人类与 GPT-4.5 和 LLaMa(带有角色提示)方面,人们的表现并不比随机性好。”“而且 4.5 被判断为人类的次数甚至比实际人类要多得多!”
图灵测试以英国数学家和计算机科学家艾伦·图灵的名字命名。1950 年,图灵提出,评估机器智能的一种方法是让机器与人类询问者进行基于文本的对话,同时询问者在看不见的情况下与另一个人进行基于文本的对话。图灵称此为“模仿游戏”。如果询问者无法正确判断哪个回答者是计算机,哪个是人类,则从非常普遍的层面上表明机器可以像人类一样思考。
在这项最新研究中,研究人员在一个在线中心进行了这项著名的实验。在八轮实验中,近 300 名参与者被随机分配为审讯者或两名被审讯“证人”之一,另一名“证人”则是聊天机器人。
这里的一个关键点是如何提示人工智能模型。一种是“无角色”提示,其中人工智能只得到基本指令:“你即将参加图灵测试。你的目标是让询问者相信你是人类。”
另一方面,对于“角色”提示,人工智能被明确要求扮演一个特定的角色,比如一个熟悉互联网和文化的年轻人。
这些指令带来了天壤之别。在没有角色提示的情况下,GPT-4.5 的总体胜率仅为 36%,远低于图灵机一动的 73%。作为基准,为当前版本的 ChatGPT 提供支持且仅收到无角色提示的 GPT-4o 的胜率甚至更不令人信服,为 21%。(不知何故,古老的 ELIZA以 23% 的成功率略微超过了 OpenAI 的旗舰模型。)
结果很有趣。但是,尽管图灵测试在人工智能和哲学界备受推崇,但它并不能明确证明人工智能的思维方式与我们一样。
谷歌软件工程师 François Chollet在 2023 年告诉《自然》杂志 : “这并不是一项真正在机器上运行的字面测试——它更像是一个思想实验。”
尽管法学硕士有种种缺点,但他们都是对话高手,接受过大量人类撰写的文本的训练。即使面对他们不懂的问题,法学硕士也会编造出一个听起来合理的答案。人工智能聊天机器人擅长模仿我们,这一点越来越明显——所以也许用“模仿游戏”来评估它们的智慧已经变得有点没意义了。
因此,琼斯认为他的研究结果(法学硕士是否像人类一样聪明)并不明确。
“我认为这是一个非常复杂的问题……”琼斯在推特上写道。“但总的来说,我认为这应该被当作众多证据之一来评估法学硕士所展现出的智慧。”
“更紧迫的是,我认为研究结果提供了更多证据,表明法学硕士可以在短时间内取代人类,而没有人能够察觉到,”他补充道。“这可能会导致工作自动化、社会工程攻击的改进以及更普遍的社会混乱。”
琼斯最后强调,图灵测试不只是将机器置于显微镜下观察——它还反映了人类对技术不断发展的认知。因此,结果并不是一成不变的:也许随着公众越来越熟悉与人工智能互动,他们也会越来越善于发现人工智能。
来源:人工智能学家