在人工智能安全领域，主要国家可以寻求哪些合作？

摘要：2025年4月17日，牛津大学、斯坦福大学、兰德公司、卡内基国际和平基金会等机构学者于arXiv预印本平台联合发表文章《地缘政治对手可以在哪些技术性人工智能安全领域进行合作？》（In Which Areas of Technical AI Safety Cou

2025年4月17日，牛津大学、斯坦福大学、兰德公司、卡内基国际和平基金会等机构学者于arXiv预印本平台联合发表文章《地缘政治对手可以在哪些技术性人工智能安全领域进行合作？》（In Which Areas of Technical AI Safety Could Geopolitical Rivals Cooperate?），探讨当前地缘政治背景下，主要竞争对手在人工智能安全技术领域开展合作的可能性与挑战。文章分析了战略技术合作动因，并以中美人工智能合作为例，剖析现有风险管理框架的不足。研究识别了技术性人工智能安全研究合作中特有的四类风险，并评估了人工智能验证机制、协议、基础设施和评估方法等四个潜在合作领域的可行性。研究认为，人工智能验证机制和共享协议方面的研究可能是此类合作的适宜领域。启元洞见编译了其中的主要内容，供相关领域的读者学习和参考。

一、引言

国际合作在管理先进技术风险方面由来已久。许多专家倡导就人工智能安全问题加强国际合作，以应对共同的全球性风险。然而，部分观点对人工智能领域的合作持怀疑态度，认为其可能对国家安全构成不可接受的风险。文章指出，人工智能安全合作所带来的风险和益处的程度，取决于具体的合作领域。

本文聚焦于影响人工智能安全研究国际合作风险的技术因素，重点分析此类合作在多大程度上可能促进危险能力的提升、导致敏感信息共享或为恶意行为提供可乘之机。文章首先回顾了历史上国家间在战略技术领域合作的原因，并以当前中美在人工智能领域的合作为案例进行分析。研究者认为，现有的相关风险管理框架可以通过补充考量技术性人工智能安全研究合作特有的关键风险而得到加强。通过分析，文章发现针对人工智能验证机制和共享协议的研究可能是此类合作的适宜领域。

二、战略技术合作的背景与动机

（一）地缘政治对手为何要在战略技术上合作？

地缘政治对手之间的战略技术合作通常基于博弈论中的若干理性考量。

首先，当技术风险无法由单一行动方有效管理时，合作很有必要，包括跨境风险（如国际犯罪集团滥用技术等）。例如，中美两国近期就联合打击利用加密货币洗钱达成协议。此外，当集体行动对于降低风险至关重要时，对手也可能选择合作，例如2024年11月中美两国达成协议，维持人类对核武器使用决策的控制，并避免将人工智能整合到核指挥与控制系统中。

其次，技术领先者可能会单方面分享技术，前提是这样做符合其自身利益且技术上可行。例如，20世纪60年代初，美国与苏联分享了防止未经授权核爆炸的“准许行动链”（PALs）的基本设计，因为双方都认识到防止意外升级的明确益处，且早期PALs足够简单，可以在不泄露敏感武器信息的情况下进行解释。

再者，对手可能通过建立减少不确定性和意外升级风险的机制来合作，以改善地缘政治稳定。例如，《开放天空条约》允许参与国对彼此领土进行非武装空中侦察飞行，使用标准化的传感器技术，从而在敌对军事力量之间建立可预测的互动模式，并确立了核查的技术规程。

最后，当技术开发成本超出任何单一行动方的资源或能力时，对手也可能合作以汇集专业知识和资源。国际空间站是包括美国和俄罗斯在内的航天机构之间的合作项目，利用了各国的航天能力；而ITER聚变项目则汇集了竞争大国，共同分担开发聚变能源的巨大成本和技术挑战。

这些合作动机同样适用于人工智能及其安全领域。例如，一个司法管辖区开发的日益强大的人工智能系统可能会对竞争对手的司法管辖区产生负面的跨境影响，需要竞争对手之间合作以有效管理这些风险。

（二）人工智能合作案例研究：中国与美国

在学术界，中美研究人员的合作比任何其他两国研究人员都多，包括人工智能安全领域（图1）。自2017年起，中国超越英国成为美国研究人员最大的合作者，并保持至今。

图1 与美国研究人员合作发表人工智能安全论文的实例占比（%）。图表不包括2023年和2024年的不完整数据，条形图顶部的数据标签显示了当年美国研究人员发表的人工智能安全论文总数。

在工业界，一些美国公司历史上曾在中国设立本地化的合资企业，以在中国市场站稳脚跟并利用人才库。这些合资企业也推动了中国科技产业的发展。典型案例是由比尔·盖茨于1998年创立的微软亚洲研究院（MSRA），该研究院的首任院长是李开复，同时他也是中国领先的开源人工智能公司“零一万物”（01.AI）的创始人。这些投向中国人工智能企业的投资对全球人工智能产业产生了显著影响。例如，2015年，MSRA的一个由何恺明领导的团队引入了“深度残差网络”（ResNet），极大推动了深度学习的发展。

政府间层面，中美两国政府在人工智能领域的合作却远不如工业界或学术界广泛。人工智能直到最近几年才成为重要的地缘政治问题：2023年，人工智能被列为中美两国元首会晤的峰会级议题；2024年5月，双方在日内瓦举行了专门的人工智能政府间对话，并计划未来进一步对话；2024年11月，两国元首达成协议，维持人类对核武器使用决策的控制，并避免将人工智能整合到核指挥与控制系统中。

（三）如何管理合作风险？

各国已经意识到战略技术合作的风险，并制定了应对措施。然而，与竞争对手在国家层面合作相关的风险管理过程是不透明的。针对学术界和企业界则存在更详细的公开指南。与竞争对手司法管辖区的其他学者合作的学者通常必须遵守国家指导体系。这些体系通常要求评估与研究主题或领域相关的风险以及研究条件。他们可能还会被要求核查合作者及其机构的身份是否在制裁名单上，并查阅美国工业和安全局（BIS）的商业管制清单等文件。

对于从事合资等活动的公司，通常还适用关于对外和对内投资的额外规定。例如，美国公司必须向美国外国投资委员会（CFIUS）等投资审查实体报告相关的对内交易。上述风险管理流程中存在的一个概念性差距是，很少有工具关注特定技术的细微差别。因此，考虑合作的行动方缺乏一个清晰的框架来评估就其特定关注的技术进行合作可能带来的地缘政治相关风险。

三、人工智能安全合作的风险

本文概述了国际合作中与人工智能安全特定相关或尤为相关的风险，即与（潜在有害的）人工智能能力发展、战略技术敏感信息泄露以及为有动机的行动者提供采取有害行动机会相关的风险。

1. 人工智能安全发展可能推动全球能力前沿：地缘政治对手可能因担心合作的副作用是推动全球（潜在有害的）人工智能能力前沿，故而犹豫是否在人工智能安全方面进行合作。

2. 合作可能差异化地提升对手的战略人工智能能力：在战略人工智能能力方面处于“领先”地位的国家，可能不愿意与对手合作，因为担心这样做会使对手相对于领先者的能力得到提升。

3. 合作可能暴露有关国家战略技术的敏感信息：如果合作的具体重点与其他（非人工智能）国家战略技术相交，并可能引发国家安全担忧，那么在人工智能安全方面的合作也可能存在风险。

4. 人工智能安全合作可能为有动机的行动者提供造成损害的机会：例如，通过在合作方有权访问的系统中植入后门，或滥用为合作目的共享的资源。

四、潜在合作领域评估

本文对人工智能技术安全的四个领域进行了非全面概述，包括验证机制、协议、基础设施和评估方法，这些领域正在出现国际合作，或者已被广泛倡导进行合作。文章评估了在每个领域进行合作可能带来的上述风险的程度（图2），并发现验证机制和协议的研究是国际合作中挑战性较低的领域。

图2 对四个关键人工智能安全领域风险的初步评估

（一）验证机制研究

“验证机制”是指能够认证关于人工智能系统或相关资源声明真实性的技术程序。这与设计新系统或通过评估等方式揭示系统信息不同。然而，开发验证机制的过程可能允许对手收集敏感信息。

*合作风险评估（为表述方便，后仅保留序号）：

①推动全球能力前沿：鉴于某些验证应用关注的是证明系统属性而非展示其存在，此类领域的研究不太可能提升人工智能系统的能力。

②差异化提升对手能力：一些验证机制的开发和使用可能会揭示先前未知的模型属性，从而可能导致对手战略能力的差异化提升。

③暴露其他敏感信息：对人工智能验证技术的合作开发，如果需要披露各方现有技术的敏感信息，则会引发担忧。

④为有动机的行动者提供有害行动机会：共同开发验证机制可能允许有动机的对手秘密植入“验证后门”，使其能够在应用此机制时伪造合规性。

（二）“协议和最佳实践”的编纂

“协议和最佳实践”指的是为实现人工智能研发积极成果而制定的程序化声明。此类共享协议的制定可能是政府间协调的适宜领域，因其技术性较低。

*合作风险评估：

①制定协议特别是在协议旨在编纂现有技术和知识的较成熟主题上，更多的是标准化过程，而非推进前沿研究，因此不会有推动全球人工智能能力的风险。

②如果协议编纂的合作侧重于各方拥有共同知识和理解的领域，那么通过此类合作差异化提升对手能力的风险很小。

③由于制定协议旨在将共同知识构建为一个多方可以认同的结构化框架，因此不一定需要与对手共享敏感或私人信息。

④鉴于协议的编纂不涉及直接参与人工智能系统，就此类编纂进行合作不会让对手采取直接有害的行动。然而，以往在标准化方面的例子表明，国家和行业行为者都倾向于利用国际标准化过程来推进自身利益。

（三）基础设施

“人工智能安全基础设施”指的是促进人工智能安全相关研发活动的系统和流程，这些系统和流程位于人工智能系统外部。在人工智能安全基础设施方面进行合作，对于确保不同司法管辖区正在进行的研发活动的互操作性可能具有巨大益处。

*合作风险评估：

①由于许多形式的基础设施具有广泛的多用途性，通过基础设施合作取得的进展可能会被应用于提升前沿人工智能能力。

②基础设施也可能被对手用来促进其自身的战略能力。

③如果为人工智能安全开发某些形式的共享基础设施建立在现有国家基础设施之上，这样做可能需要向对手提供有关现有基础设施的敏感细节。

④基础设施具有广泛的多用途性，适用于许多潜在的下游应用和用途，因此可能特别容易被恶意行为者滥用。

（四）评估方法

可靠评估人工智能系统能力和安全性的方法和资源，例如通过基准测试、红队演练、人类提升研究或智能体评估，已成为人工智能（安全）研究的焦点。就此类方法进行合作可以确保互操作性，使各司法管辖区能够共享和借鉴彼此的评估结果，从而创建一个更高效的全球人工智能评估系统。

*合作风险评估：

①由于评估主要关注评估系统的能力或安全性，而非改进这些方面，因此人工智能评估方面的合作不太可能直接推动全球前沿。

②一些评估方法规定了旨在从危险或军民两用任务中提取系统上限性能的引出技术。因此，共享引出技术可能特别敏感，因为它们可能被直接应用于提高系统能力。

③根据评估的重点领域，合作可能需要共享敏感信息。

④合作开发评估方法在多大程度上会为有动机的行动者提供采取有害行动的机会，很大程度上取决于合作的形式。

五、结论

地缘政治对手通常有动机在战略技术上进行合作，例如应对跨越国界的技术风险。然而，此类合作本身也可能带来风险，如果希望充分实现合作的益处，就必须对这些风险加以管理。本文概述了地缘政治竞争的重要案例中当前人工智能领域的国际合作情况，并指出了与技术性人工智能安全合作相关的四类风险来源。基于此，文章评估了在人工智能安全领域已被提议作为国际合作潜在领域的四个技术工作方面，这些风险可能实现的程度，并发现验证机制和协议的开发可能非常适合合作。

转自丨启元洞见

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

_er

来源：全球技术地图

标签：人工智能国家行动者地缘地缘政治

本文地址：http://news.43b.com.cn/a/408519.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!