刘云浩:敌在本能寺 | CCCF精选

B站影视 2025-01-16 13:41 2

摘要:美国谷歌发布了量子芯片Willow,中国幻方推出了DeepSeek。2025年,一切似乎顺理成章,而我们在自己创造的智能面前,所有豪言壮语,都一笔勾销了。

美国谷歌发布了量子芯片Willow,中国幻方推出了DeepSeek。2025年,一切似乎顺理成章,而我们在自己创造的智能面前,所有豪言壮语,都一笔勾销了。

2025年是CCCF创办20周年,与CCCF一路同行的忠实读者,是否还能记起20多年前那些风靡全球的日本光荣(KOEI)游戏?有多少同行和我一样,对日本战国时代的了解来自《信长之野望》和《太阁立志传》?1582年,日本发生了一件大事,“天下布武”的织田信长,在无限接近结束大名混战局面而一统岛国的时刻,竟然在京都本能寺下榻期间,被自己的心腹大将明智光秀围攻而死。

谁攻杀织田信长都比不上明智光秀更加让人不可思议。据日本史料记载,有些参与本能寺兵变的士兵甚至以为是信长有难而他们正在回援护主。光秀是信长亲自发掘并提拔的总大将之一,屡立战功、备受宠信,事变前刚被任命为信长御驾亲征毛利家族的先锋官,正要跟随信长从一个胜利走向另一个胜利。从事后操作来看,光秀并无取代信长号令天下的计划与实力。当麾下1万多名士兵不知道自己将要围攻主君的时候,是什么原因促使光秀说出那句名言“敌在本能寺”呢?

2024年12月27日,OpenAI宣布2025年进行公司架构调整,非营利组织失去控制权。这一转变激起了辛顿(Geoffrey Hinton)等人的担忧,认为“破坏了OpenAI优先考虑公众安全的承诺”。为什么越来越多的人开始担心人工智能的安全?关键在于我们不能完全理解和掌控大模型输出的逻辑。人工智能很多时候远超人类的水平,可也不总是“靠谱”。相比于可以“预见危险”的不安全行为,本能寺事件中明智光秀不合逻辑的“背刺”更让人不安。

能否让大模型输出有安全保障的行为呢?一种思路是通过外部规则限制大模型的应用。虽然短期内“立竿见影”,但规则仍然时不时被绕过(jailbreak),还常常因规则过多而“因噎废食”,大幅降低模型的功能性和灵活性。另一种思路是通过改变模型内部的推理过程让模型拥有内在安全的能力,比如OpenAI最近发布的完整o1,被训练为在输出最终答案之前,生成较长的“思维链”,从而能更好地遵守安全规则。人工智能初创公司SSI(Safe Superintelligence)创始人伊尔亚·苏茨克维(Ilya Sutskever)在NeurIPS 2024上表示,大规模预训练时代已经结束了,未来的AI首先要实现代理化,具备一定的推理能力,接着自我意识也会相伴而生。具有自我意识的AI是更安全还是更不安全?

在本期专题中,来自复旦大学、北京航空航天大学、郑州大学、哈尔滨工程大学、西北工业大学、香港科技大学等高校的学者,从人机协同计算的角度,探讨了人智协同行为分析与建模、可信人智协同系统构建、人智协同计算环境、人机计算系统、人机合作决策等五方面研究,推动人工智能向更可靠、可信和可控的方向发展。

刘云浩

CCF会士,ACM Fellow,CCCF主编,2022年CCF王选奖获得者。清华大学教授。ACM Transactions on Sensor Networks主编。

CCF推荐

来源:CCFvoice

相关推荐