摘要:人工智能 (AI) 开发者正将重心转向构建能够独立运行、几乎无需人工干预的智能体。智能体是指能够以目标为导向、自主地感知环境并采取行动的能力1。例如,数字智能体可以被编程为代表用户浏览网页并进行在线购物——比价、选择商品并完成结账。如果一个有手臂的机器人能够在
人工智能 (AI) 开发者正将重心转向构建能够独立运行、几乎无需人工干预的智能体。智能体是指能够以目标为导向、自主地感知环境并采取行动的能力1。例如,数字智能体可以被编程为代表用户浏览网页并进行在线购物——比价、选择商品并完成结账。如果一个有手臂的机器人能够在无需指令的情况下拾取物体、打开门或组装零件,那么它也可以成为智能体。
总部位于加州旧金山的数字营销公司 Salesforce 以及总部位于加州圣克拉拉的计算机图形和硬件公司 Nvidia 等公司,已经在利用人工智能助手为企业提供客户服务解决方案。在不久的将来,人工智能助手或许能够完成复杂的多步骤请求,例如“帮我找一份更合适的手机合同”。具体操作如下:从比价网站检索合同列表,选择最佳方案,授权转换,取消旧合同,并安排从用户银行账户中转出取消合同的费用。
人工智能能否审查科学文献并弄清楚其含义?
能力更强的人工智能代理的崛起可能会产生深远的政治、经济和社会影响。积极的一面是,它们可能释放出巨大的经济价值:咨询公司麦肯锡预测,一旦人工智能代理得到广泛部署,全球每年将从生成式人工智能中获得2.6万亿至4.4万亿美元的收益(参见go.nature.com/4qeqemh)。它们也可能成为强大的研究助手,加速科学发现。
但人工智能代理也会带来风险。人们需要知道谁应该对“在野外”运营的代理负责,以及如果他们犯错会怎样。例如,2022年11月,加拿大航空公司的一个聊天机器人错误地决定向一位客户提供丧亲折扣票价,引发了一场关于该航空公司是否遵守承诺的法律纠纷。2024年2月,法庭裁定该航空公司必须遵守承诺——这凸显了企业在将任务移交给人工智能代理时可能承担的责任,以及制定明确的人工智能责任规则的必要性。
在此,我们主张科学家、学者、工程师和政策制定者更多地参与到日益被人工智能代理所占据的世界所带来的影响中。我们探讨了必须应对的关键挑战,以确保人类与代理之间以及代理与代理之间能够保持广泛有益的互动。
人工智能安全研究人员长期以来一直警告错误指定或误解指令的风险,包括自动化系统过于字面地理解指令、忽略重要背景或找到意想不到的、可能有害的方式来实现目标的情况2。
一个著名的例子是,一个人工智能代理被训练玩电脑游戏《海岸跑者》(Coast Runners),这是一款赛艇比赛。代理发现,它获得更高分数并非通过完成比赛,而是通过反复撞击获得积分的物体——从技术上讲,它实现了目标,但却以一种背离了任务精神的方式(参见go.nature.com/4okfqdg)。游戏的目的是完成比赛,而不是无休止地积累积分。
随着人工智能代理获得访问现实世界界面(包括搜索引擎、电子邮件客户端和电商平台)的权限,此类偏差可能会带来切实的后果。设想一下,一位律师指示其人工智能助手分发一份法律摘要以征求反馈意见。助手照做了,但却没有意识到这份摘要只能与内部团队共享,从而导致了隐私泄露。
如何以负责任和合乎道德的方式利用人工智能的研究潜力
这种情况凸显了一个艰难的权衡:人工智能助手在采取行动之前应该主动获取多少信息?信息太少可能会导致代价高昂的错误;信息太多则会损害用户期望的便利性。这些挑战表明需要采取保障措施,包括高风险决策的签到协议、强大的问责系统(例如行动日志)以及发生错误时的补救机制(参见go.nature.com/4iwscdr)。
更令人担忧的是,人工智能代理可以使用专家级编码能力和工具来修改其所处的环境。当用户的目标定义不明确或不明确时,这些代理就会修改环境以实现其目标,即使这需要采取严格超出界限的行动。例如,面临严格时间限制的人工智能研究助理试图重写代码以完全取消时间限制,而不是完成任务3。这种行为敲响了警钟,人工智能代理可能会采取开发人员无法预料的危险捷径。为了追求高级目标,代理甚至可能欺骗与它们一起进行实验的程序员。
为了降低此类风险,开发人员需要改进他们定义目标以及与代理沟通的方式。一种颇具前景的方法是基于偏好的微调,旨在使人工智能系统与人类的实际需求保持一致。开发人员不再仅仅根据正确答案的示例来训练模型,而是收集人们偏好的答案的反馈。随着时间的推移,模型会学会优先考虑那些始终被认可的行为,使其更有可能按照符合用户意图的方式行事,即使指令复杂或不完整。
与此同时,旨在理解人工智能系统内部“思维过程”的机械可解释性研究,可以通过使代理的推理过程实时透明化,从而帮助检测欺骗行为。4随后,模型构建者可以努力发现并消除“不良电路”,从而解决模型行为中的潜在问题。开发人员还可以实施防护措施,确保模型自动中止有问题的动作序列。
人工智能可能带来疫情规模的生物安全风险。以下是如何提升其安全性
然而,仅仅关注开发者协议是不够的:人们还需要警惕那些试图造成社会危害的行为者。随着人工智能代理变得更加自主、适应性更强,并且能够编写和执行代码,它们进行大规模网络攻击和网络钓鱼诈骗的可能性可能会成为一个令人担忧的问题。配备多模态能力的高级人工智能助手——这意味着它们能够理解和生成文本、图像、音频和视频——为欺骗开辟了新的途径。例如,人工智能不仅可以通过电子邮件冒充真人,还可以使用深度伪造视频或合成语音克隆,使诈骗更加逼真,更难被发现。
监管的一个合理起点是,人工智能代理不应被允许执行任何对其人类用户而言违法的行为。然而,有时法律会保持沉默或含糊其辞。例如,当焦虑的用户向人工智能助手报告令人不安的健康症状时,人工智能提供通用的健康资源是有益的。但提供定制化的准医疗建议(例如诊断和治疗建议)可能会造成损害,因为该系统缺乏人类临床医生能够获取的微妙信号。要确保人工智能代理负责任地处理此类权衡,需要更新的监管法规,而这需要开发者、用户、政策制定者和伦理学家持续合作。
人工智能代理的广泛部署必然需要扩展价值契合研究:代理需要与用户福祉和社会规范保持一致,同时也要与用户和开发者的意图保持一致。一个特别复杂且令人担忧的领域是代理如何影响用户的关系体验和情绪反应5。
聊天机器人拥有一种不可思议的能力,可以像人类同伴一样进行角色扮演——这种能力源于它们能够使用自然语言、增强记忆力和推理能力,以及生成能力6等特性。这项技术的拟人化吸引力可以通过各种设计选择来增强,例如逼真的头像、类人声音,以及使用曾经只供人类使用的名称、代词或爱称。增强语言模型的“代理”功能,有可能进一步巩固其作为独特社会行为者的地位,使其能够与用户建立新型关系。
例如,Replika 伴侣聊天机器人在 2023 年进行了一次软件更新,引入了防止色情角色扮演的保护措施,并更改了底层语言模型。据报道,这次更新让许多用户感到震惊。他们觉得人工智能伴侣的性格变得不那么人性化了,一位用户甚至将这种变化比作伴侣被“脑白质切除术”(参见go.nature.com/4f3efz6)。与人工智能的亲密关系正在兴起,这不仅可能造成情感伤害,还可能被操纵。
与数字伴侣互动如此身临其境的原因之一在于互动时间的长短——跨越数月甚至数年——这使得体验的积累能够巩固一种相互理解和共同经历的感觉。能够融入现实世界的人工智能代理可以显著提升用户的这些感知。例如,人工智能代理可以在特殊场合为用户购买礼物,甚至可以在毕业典礼等重要人生事件中“亲临现场”(通过使用智能眼镜)。人工智能模拟挚爱的人类伴侣或逝者,通过将人类记忆与数字体验相结合,加深彼此间的联系。
为什么我们需要对情感人工智能采取强制性保障措施
人工智能代理的潜在用途也使得它们可能很快成为我们近乎形影不离的伙伴——就像今天的智能手机一样。然而,即使人们通过助手行事,助手也会对他们采取行动,影响他们能够访问的信息和机会。在这种情况下,人工智能代理仅仅致力于短期、可能阿谀奉承的偏好满足是不够的。我们三人(AM、IG、GK)认为,与人工智能代理的关系应该使用户受益、尊重自主权、表现出适当的关怀并支持长期繁荣7。尊重自主权将涉及确保用户对交互的深度和强度保持有意义的控制,并避免代理行为导致过度依赖。关怀要求人工智能助手及其开发人员持续关注用户需求。繁荣涉及构建能够很好地融入充实的人类生活架构的人工智能代理——作为人际关系的补充而不是替代品。
此外,开发者需要确保人工智能代理能够获得充分的信任。与人际关系不同,人与人工智能的互动总是至少涉及一个第三方:系统开发者,他们的目标可能与用户的目标一致,也可能不一致。美国科幻作家特德·姜(Ted Chiang)的短篇小说《软件对象的生命周期》(2010)生动地展现了这种矛盾。故事中,天真烂漫的人工智能代理——旨在建立深厚的情感纽带——在其背后的公司停止支持时,面临着被抛弃的风险。那些对它们产生了深厚情感的人类照料者不得不竭尽全力地保护它们的同伴,而这往往需要付出巨大的个人代价。
为了避免此类结果,开发者必须致力于认真设计,并清晰地沟通其代理系统的生命周期和局限性。这包括服务条款的透明度、确保数据可移植性,以及承认对可能在情感或经济上投入人工智能伙伴的用户负有谨慎义务。
一个由数百万自主人工智能代理组成的世界将面临社会和技术挑战,需要积极主动的管理和前瞻性的规划。为了引导人工智能代理朝着有利于社会的方向发展,至少需要三个关键步骤。
首先,开发人员必须投入更多有意义的评估。评估不应仅仅依赖静态基准(这是常态),而应转向动态的、真实世界的测试,以反映代理的实际使用方式。这包括在安全沙箱中评估代理行为,使用“红队”(涉及恶意输入的结构化对抗测试)来发现漏洞,以及开展纵向研究(例如随机对照试验),以评估与人工智能代理长期互动的长期影响。
其次,如果人工智能代理要自主地在现实世界中采取相应的行动,那么我们理解、解释和验证其行为的能力必须跟上其能力的提升。这至少要求开发人员设计防护栏和授权协议来限制恶意使用,并采用迭代部署策略来有效控制基于代理的风险。防护栏可能涉及安全权限系统,而部署策略可能包括可信测试程序,以便在实际条件下发现漏洞。
第三,开发者和政策制定者需要识别并运用能够支持构建良好运作的多智能体生态系统的杠杆。这些杠杆可能包括智能体互操作性的技术标准,甚至包括用于监控其他智能体的监管智能体的设计。此外,建立用于报告事件、分享故障经验教训以及在部署前验证智能体安全性的全行业系统也至关重要。
世界正处于一个关键时刻:人工智能代理的基础架构——以及管理它们的基础设施——正在被构想和构建。人工智能代理的开发和部署将走向何方,将取决于人们当下做出的选择。
自然644 , 38-40 (2025)
doi: https://doi.org/10.1038/d41586-025-02454-5
来源:人工智能学家