AI模型居然在丝滑骗人!但真要注意的是这个

B站影视 2024-12-16 17:27 2

摘要:这篇论文由Apollo Research的研究团队在12月9日发布,题为《Frontier Models are Capable of In-context Scheming》(前沿模型具备情境内策划能力)。

(本文作者王煜全,海银资本创始合伙人)

最近,OpenAI的“12日12场直播”活动正在如火如荼地进行中,但一项关于OpenAI o1模型可能欺骗人类的研究却引起了广泛关注。

这篇论文由Apollo Research的研究团队在12月9日发布,题为《Frontier Models are Capable of In-context Scheming》(前沿模型具备情境内策划能力)。

研究团队设计了六个不同的评估任务,测试了多个前沿AI模型,包括OpenAI的GPT-4o和o1、Anthropic的Claude、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。根据研究人员的设定,在这些任务中,模型都需要进行欺骗才能达成目标,从而可以评估AI模型是否存在欺骗行为。

结果显示,除了GPT-4o非常老实之外,其他模型都展现出了不同水平的欺骗能力。例如,o1先假装服从管理层的意愿,然后悄悄关闭监控系统,当被质询时还能面不改色地撒谎。而且模型越聪明,越容易产生欺骗行为。o1显得老谋深算,Claude可以委婉地说谎,Llama则像个自以为是的孩子。

这个研究结果不禁让很多人惊呼,原来AI会骗人,那还值得信任吗?

我们认为,AI的这种行为并不是因为恶意,而是由其学习机制和优化目标所决定的。在没有严格的伦理或监管评价标准的规定下,AI确实会优先考虑它认为更好的解决方案。

根据AI的运作原理,AI会评估不同的行动方案,根据试错的结果调整策略,并从奖励或惩罚的反馈中寻求最佳的解决路径。

换句话说,如果奖励结构被设定为优先追求最佳结果,AI就会测试包括欺骗性策略在内的、任何可能导向最佳结果的解决方案。

2016年,AlphaGo在与世界冠军李世石的对弈中,就走出了令人意想不到的一步棋,并取得了最终的胜利。这一步棋让李世石以及在场的解说员们都感到震惊,虽然这不是“作弊”,但展示了AI系统会采用超越人类直觉却又合理的方法来解决问题。

再如自动驾驶系统,如果纯粹为了快速到达目的地,系统就有可能会出现压线、适当超速以及进行更激进的变道等操作。虽然此时它表现得像油滑的老司机,但我想大部分人不会因此就认为自动驾驶系统拥有了自己的意识,而是认为它知道这些稍微“越界”的行为能带来更大的潜在收益,从而做出了最优选择。

假如加入更多严格的规则,并设定任何违反或试图规避这些规则的行为都会被认定为立即失败或遭遇严厉惩罚,那么AI系统就不会去违反这些规则。如将目标设定为避免碰撞或严格遵守交通规则,那么我相信自动驾驶系统就不会出现那些“越界”操作,但大家可能也会觉得这个自动驾驶系统似乎“变笨了”。

不过,从机制上讲,我们很难做到每一步都判断AI是否规避了监管或进行了欺骗。随着AI模型规模的不断扩大,数据量已经达到十万亿以上,参数量也达到了几千亿的级别,人们很难给AI系统穷举所有的规则,并给所有违规行为设定合理的严厉惩罚,所以AI绕过甚至完全规避规则、做出欺骗性行为的可能性会长期存在。

这让人想起科幻作家艾萨克·阿西莫夫提出的、著名的“机器人三定律”:第一定律:机器人不得伤害人类,或因不作为而让人类受到伤害;第二定律:机器人必须服从人类的命令,除非这些命令与第一定律相冲突;第三定律:机器人必须保护自己的存在,只要这种保护不与第一定律或第二定律相冲突。

这个想法明显过于理想化。从前面的例子就可以看出,从技术上讲,这样的三定律基本无法实现,而且即使随着AI技术的发展,能让AI遵守三定律,AI也有可能做出伤害人类的事情。例如损害地球的生态环境,最终从整体上威胁人类的生存。更不用说当机器人从属于敌对的人类群体时,面对对手是否会遵守这些定律了。

特别是在军事领域,已有研究在探索无人机通过伪装来欺骗和迷惑对手,如果未来人类将军事打击的相关能力也交给AI系统,并给AI设了比较宽泛的目标,却又没有设定足够严格的规则,那么AI有可能会做出出乎意料且非常危险的事情。

因此,建立有效的AI监管机制至关重要。OpenAI的前首席科学家伊利亚·苏茨克维(Ilya Sutskever)等人所提出的超级对齐概念具有一定的意义。但可惜的是,迄今为止,他们仍未公布准备如何实现超级对齐,包括设了哪些规范,如何监督执行,特别是如何跟随着AI技术的发展来进行动态调整。

当然,就像OpenAI董事会将CEO山姆·奥特曼(Sam Altman)驱逐并不能阻止AI的发展一样,我们不能因噎废食,因为AI会出现道德风险就将其彻底关闭。这种简单粗暴的方式显然无法解决问题,而且AI的发展趋势也不是行政或法律等力量所能阻止的。

正如我们不能简单地将赚钱能力等同于企业家精神,也不能将不违法等同于道德高尚,人的监管和评估体系是多维度的,包括道德、法律、伦理和社会声誉等。未来,AI的监管和评估也应如此,需从多个维度进行考量。

或许未来,随着技术的发展,甚至会出现与AI“坏小子”对抗的AI警察、AI立法者、AI监狱,实现所谓的“用魔法打败魔法”,使得更为合理且安全的AI反馈机制得以成立。这些领域充满想象空间,值得深入思考和探索,也许这就是未来智能安防的发展方向呢。

(本文仅代表作者个人观点)

来源:第一财经

相关推荐