摘要:2025年3月,新美国安全中心(CNAS)发布《美国国防部推进人工智能和自主系统测试和评估的战略动向》(Advancing Department of Defense Test and Evaluation for AI and Autonomous Syst
一、测试与评估的目的
美国国防部(DoD)的测试与评估(T&E)体系是一个庞大、涉及数十亿美元的系统,涵盖军种内部及联合组件。为了理解人工智能和自主系统对现有基础设施、人员与流程的影响,必须首先认识到T&E体系的价值。T&E是军事系统开发中至关重要的环节,旨在确认和提升系统的作战效能、适用性、生存能力与杀伤力。
T&E的价值类似于预防医学,其成效常常体现于避免了事故的发生,因此需要借助反事实推理来加以评估和理解:如果没有广泛的T&E工作,系统性能可能会受到怎样的影响。一种衡量T&E有效性的方式是比较具有不同安全程序严谨程度的系统。另一衡量方式是漏洞(程序错误)的发现与修复情况。目前T&E流程大多是线性化的,这种方式难以持续评估平台中频繁变更的代码库的安全性与有效性,尤其是对于采用机器学习的系统。为了理解当前T&E流程需要如何转型,本报告将探讨目前针对传统硬件与非人工智能软件所采用的T&E步骤。
二、传统的硬件与软件测试评估流程
通常,测试与评估(T&E)规划在系统开发的早期就开始,并持续到初始部署阶段。新型武器系统需要经历两个主要阶段的测试:发展性测试(Developmental Test, DT)和作战性测试(Operational Test, OT)。
(一)发展性测试(DT)
通常在实验室等封闭环境中进行,使开发者和测试人员能在控制条件下评估系统性能。DT收集和评估系统的能力与风险,为采办生命周期内的决策提供依据。DT可由承包商或政府人员监管,评估内容包括关键性能参数(KPP)和关键系统属性(KSA)等。
(二)作战性测试(OT)
将系统置于预定作战环境中,包括逼真的作战条件和威胁环境。OT通常由作战测试机构实施,这些机构隶属于相应军种或美国国防部相关部门,拥有技术测试人员和作战人员。值得注意的是,这通常是系统首次与现役操作人员进行大规模接触。理论上DT和OT可以同时进行,但在实践中常是先后顺序进行,只有在DT评估充分的前提下,才会授权进入OT阶段。
虽然这两个阶段侧重于系统的不同方面,但美国国防部长期以来都认识到测试阶段之间信息共享的重要性以提升效率。然而,T&E社区普遍认为实际中缺乏真正的阶段间协作。合理情况下,前期测试数据可避免重复实验,从而释放测试资源、降低成本、缩短项目周期。但专家指出,数据共享在实际中仍然有限,尤其是在由承包商主导DT测试时更为明显。出于知识产权保护的考虑,承包商往往难以充分共享数据,因其可能泄露系统设计的技术细节。
随着软件在物理平台上的广泛应用,软件测试方法也日趋严谨和复杂。针对依赖软件驱动的物理系统,建模与仿真(Modeling and Simulation, M&S)在过去几十年中越来越重要,成为系统开发中的一项关键工具,用于提前发现问题并减少实测需求。M&S的应用领域非常广泛,涵盖汽车、航空航天、物流、制造等行业。自1970年代起,美国国防部便投资开发网络化仿真工具,最初主要用于训练,也有人提出其未来可用于作战和T&E。尽管这些作战用途尚未充分实现,但M&S在美国国防部系统开发中的地位持续上升。
尽管传统T&E实践会随时代变化(如M&S的兴起),整体流程仍大体保持一致。要理解人工智能系统对这一流程造成的压力,必须考虑美国国防部对人工智能系统所施加的一系列额外政策限制。尽管所有测试工作的主要目标仍然集中于关键特性,但美国国防部已经日益聚焦于适用于人工智能系统的特定原则和政策。
三、美国国防部人工智能政策的演变
及其对测试与评估的影响
在过去几年中,美国国防部逐渐认识到,传统的系统开发和测试方法不再完全适用于人工智能系统。同时,美国国防部也意识到这些系统带来了新的风险,并需要一个新的框架来理解其负责任的应用,因此制定了一系列战略和高层指导方针,统称为“负责任人工智能(Responsible AI,RAI)”。
自2018年《美国国防部人工智能战略》(DoD Artificial Intelligence Strategy)(以下简称“2018年人工智能战略”)发布以来,美国国防部日益推进一项以伦理为基础的人工智能政策,强调在人工智能系统的开发和部署过程中坚持伦理原则。自2019年美国国防创新委员会发布的一份报告开始,美国国防部确立了五项关键原则来界定其对RAI的框架,推动系统遵循以下要求:
(一)负责任(Responsible)
美国国防部人员在开发、部署和使用人工智能能力时,将保持应有的判断力和谨慎,并对这些过程承担责任。
(二)公平(Equitable)
美国国防部将采取有意的措施,尽量减少人工智能能力中可能存在的非预期偏见。
(三)可追溯(Traceable)
美国国防部的人工智能能力应以透明、可审计的方法进行开发和部署,确保相关人员充分理解相关技术、开发流程与运作方法,涵盖数据来源、设计流程和文档记录。
(四)可靠(Reliable)
美国国防部的人工智能能力必须有明确且界定清晰的用途,其安全性、可靠性和有效性必须在这些界定范围内接受测试和验证。
(五)可治理(Governable)
美国国防部将在人工智能系统设计和工程中融入控制机制,确保其完成预期功能的同时,具备识别和避免非预期后果的能力,并能在出现异常行为时中止或关闭部署的系统。
推动RAI发展的一项根本性挑战在于:如何界定“人工智能”本身。鉴于历史上许多系统曾被称为“人工智能”,再加上如今机器学习等前沿技术的发展,不少测试评估专家及国防部人员都呼吁制定统一术语,期望通过术语标准化来提升各专业群体间的沟通效率。这种努力不仅涉及“人工智能”的定义,也涉及RAI中的核心概念,如“公平性”“责任性”等。
然而,许多测试评估专家指出,这些原则往往缺乏足够的技术严谨性,难以与具体方法或指标相对应,因而无法被转化为可测试的系统需求,除非进一步明确其在具体作战情境中的应用方式。
四、人工智能驱动与自主系统的新颖性
尽管美国国防部(DoD)数十年来一直在部署具备人工智能功能的系统,但近年来机器学习(ML)的进步带来了新的挑战,特别是在确保系统安全性和有效性方面。这些挑战必须在建立制度性知识体系时加以应对,以便为制定和扩展有效的测试与评估(T&E)程序打下基础。
过去一代的人工智能系统主要依赖编码规则和专家知识,使开发者和测试人员能够对系统在不同条件下的表现有一定的可预测性。尽管在实践中很难对这些系统在所有条件下进行详尽测试,但其决策逻辑可以通过诸如决策树等工具加以捕捉,展现系统如何逐步评估环境并选择行动。
这种决策树式逻辑相较于现代机器学习系统更容易验证,而现代ML系统则是通过训练数据学习复杂而模糊的统计关系,本质上由大量数值参数组成,这些参数经过训练调优决定系统输出与行为,而非通过可由开发人员和测试人员直接检查的明确代码来实现。可以将其类比于线性回归:虽然线性回归只涉及两个参数(斜率与截距),但大型ML模型可能拥有数十亿个参数。
这些大型、自动化训练的系统是人工智能发展的一个例证,但人工智能涵盖的软件工程技术远不止如此。为整个美国国防部制定一个统一的人工智能定义既不可行,也无法切中当今新型人工智能系统所带来的核心问题。相比之下,更好的方式是关注技术文献与专家所强调的新人工智能系统特征,这些特征构成了测试与部署面临的新挑战。
(一)动态性
系统在部署后可能会通过新数据不断学习和演化,或对操作环境高度敏感,并表现出不可预测的变化。
(二)输入/输出关系的复杂性
与传统软件不同,这类系统不再有编码的输入输出映射,而是通过统计分布进行关联。
(三)可解释性有限
系统缺乏传统软硬件所具备的可解释性,其内部推理或统计关系难以被清晰审查或理解。
(四)自主性
系统以极少甚至无需人为干预的方式执行任务,或其运行速度快到难以进行实时监督。
(五)对数据来源与质量的敏感性
训练数据若选择不当或结构混乱,系统在目标任务中的表现也将受到严重影响。此外,数据来源也至关重要,已有研究表明恶意行为者可通过“数据投毒”攻击(如在数据集中植入低质量数据)来削弱系统性能。
(六)对“规避”行为的敏感性
人工智能系统,尤其是强化学习和机器学习模型,在测试评估中面临“规避”行为、缺乏可操作性指导等挑战,亟需制度性知识积累、自适应测试方法与数字孪生等技术支持。
五、结论与建议
相比于过去,人工智能和自主系统的能力有了显著增长,尤其是近年来先进机器学习系统的快速发展,极大地改变了人们对未来战场的理解。发展和部署这些系统不仅需要重新审视基本作战理念,还要求对整个系统开发流程进行再调整。
随着人工智能和自主系统技术的快速发展,现有的测试与评估(T&E)方法和流程必须做出相应调整。测试人员、工程师与作战人员的专业经验,在系统平台早期获取阶段的重要性日益凸显。传统依赖于物理基础设施和试验场地的方式,正在被虚拟基础设施和高性能计算能力所替代,后者在系统开发中的作用日益关键。
同时,软件开发呈现出更强的迭代性。这种变化迫使人们重新审视传统的线性系统工程流程,转向更加灵活、适应性强的系统开发方法。这不仅要求大量资金投入,还需引入更多具备相关技能的技术人才,并对现有人员结构进行调整,以实现系统能力与作战需求的更早、更频繁的评估。
构建安全、可靠且高效的人工智能与自主系统,并非任何单一采办或作战部门的专属任务,而是贯穿整个系统生命周期的集体责任。这些发现与建议面向多个相互协作的群体,包括工程师、设计人员、测试团队和作战人员,需共同推进系统能力的形成与优化。
转自丨启元洞见
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
_er
来源:全球技术地图