摘要:价值对齐作为人工智能技术良善发展的有效手段和必经之路,旨在让大模型的能力、行为与人类的真实意图、价值观以及社会道德准则相一致。现有人工智能价值对齐的技术路径和伦理进路虽具备可行性,但存在局限与不足。价值对齐的技术路径缺乏有效性与可拓展性,受限于人类主观偏好,而
摘要: 价值对齐作为人工智能技术良善发展的有效手段和必经之路,旨在让大模型的能力、行为与人类的真实意图、价值观以及社会道德准则相一致。现有人工智能价值对齐的技术路径和伦理进路虽具备可行性,但存在局限与不足。价值对齐的技术路径缺乏有效性与可拓展性,受限于人类主观偏好,而弱进路价值对齐路径存在“对齐鸿沟”、价值观难以统一和静态价值观等问题,强进路价值对齐路径则存在道德无法化约为一种能力、情感计算技术的困境和多元主体对齐的复杂性等难题。交互式价值对齐路径是实现人工智能价值对齐的有效路径,赋予人工智能交互主体性是价值对齐的前提,情境化价值共识是交互式价值对齐的关键,通过人机合作和社会场景模拟来实现价值对齐。
关键词:人工智能人机交互关系交互式价值对齐
人工智能进入大模型时代后,协同人类进行语言理解、内容生成等任务,人机关系日趋紧密,正向人机融合的未来迈进。然而人机交互的过程伴随着极大的风险和不确定性,人工智能极有可能以与人类意图不一致的方式行事,例如,一个目标为优化特定指标的人工智能,若在设计时未能有效强调安全性或可持续性等价值,为了实现目标,它会不惜对人类或环境造成伤害。不仅如此,人工智能还可能在交互过程中改变甚至重塑人类的自我意识。近年来,国际学界揭示了人类极易对社交型人工智能形成单向情感绑定,存在着被人工智能及其背后人员操控和欺诈的风险。为有效引导生成式人工智能技术以维护人类利益为价值目标的发展,2023年8月,我国发布了首个针对生成式人工智能服务的法规——《生成式人工智能服务管理暂行办法》(以下简称《办法》)。《办法》规定,提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德。为了实现这一治理目标,就必须实现人工智能的能力和行为与人类价值观的对齐,使人工智能理解并遵守人类社会的道德准则,因此,应在研发和使用人工智能的过程中,探寻实现价值对齐的有效方法。
价值对齐(Value Alignment)的提出一般可以追溯到计算机科学家斯图尔特·罗素(Stuart Russell),他曾指出“人们需要发展可证明符合人类价值观的智能,而不是纯粹的智能”。但早在1960年,控制论创始人诺伯特·维纳(Norbert Wiener)就曾论述过机器发展的对齐要求:“为避免造成灾难性后果,人们对机器的理解需要和机器性能发展保持同步,确保机器执行的目标符合人类真正的需求。”当今,技术哲学家们在价值对齐的内容和目标上进行了更为充分的界定,对齐应该实现机器目标和人类需求之间的协同,确保机器与人类指令、偏好、利益、价值等维度保持一致。
近年来,人工智能技术领域开始反复强调价值对齐的重要性,2023年,Open AI公司将价值对齐的达成确定为人工智能技术发展的关键环节。价值对齐旨在让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人工智能与人类协作过程中的安全性和可信任度,不会作出危害人类的行为,从而让人工智能的行为向着人类预期方向发展。当下可预判的是,如果价值不对齐就会产生系列技术风险,例如:“幻觉”问题、“越狱”问题、不当引导问题、“规则博弈”难题等,未实现价值对齐的人工智能在运行过程中极可能以人类意料之外的方式危害人类社会。
为解决上述大模型的有害输出和滥用等问题,以ChatGPT为代表的技术公司通过监督微调、奖励建模和人类反馈强化学习等方式,使模型输出的最终内容与人类价值对齐。但是,当下通过技术手段达成对齐仍然面临诸多困境。一方面,人类反馈所代表的人类价值偏好并不完全等同于人类价值观;另一方面,当代社会多元化价值存在着非连贯性、差异性和冲突化的特征,大语言模型难以对彼此矛盾对抗的价值观作出统一的对齐。综上,价值对齐的方式和问题需要综合技术方法和道德设计进一步梳理,并基于人机关系发展现状,探寻具备有效性和可解释性的实践路径。
当前人工智能价值对齐在技术领域展开了诸多探索,道德设计的范式也为价值对齐提供了伦理进路,但上述路径都存在着一定的局限与不足。
1. 价值对齐的技术路径
自2023年始,以Open AI、DeepMind和Anthropic为代表的人工智能公司,最早对大语言模型的价值对齐进行了技术研究和探索,但其技术手段普遍存在着有效性、可拓展性不足,受限于人类反馈的主观偏好,无法保障持续对齐的问题。
(1)常用技术路径
人工智能公司常用的技术性手段主要包括监督精调(Supervised Fine-tuning)、人类反馈强化学习(RLHF)、合作逆强化学习(CIRL)、宪法AI(Constitutional AI)和红队测试(Red Teaming)等。
其一,监督精调。在预训练模型的基础上,监督精调通过对特定任务的数据进行有监督的训练,使模型能够更好地适应特定的任务。主要技术方法是让大模型针对任务类型的数据集进行学习,并结合人类偏好校准的奖励模型实现价值对齐。
其二,人类反馈强化学习。其核心思路是通过人类训练员评估模型输出的内容,包括给予AI好与坏的反馈选项、让AI直接获得用户的反馈信号、为其强化学习提供奖励或贬损信号等方式,对模型性能进行改进优化。
其三,合作逆强化学习。这是将提供反馈的人类和AI系统置于合作而非对抗的位置,旨在训练人工智能从观察到的人类行为中推断出任务目标和奖励信号,从而让智能体更好地执行任务,通过合作实现对齐。
其四,宪法性AI。方法是运用特定的宪法性AI模型,在运行过程中完成部分监督,并根据系统提供的高质量反馈数据来提高价值对齐的能力。宪法性AI能够让价值对齐从低效率的人类监督转向更高效的“规模化监督(Scalable Oversight)”。
其五,红队测试。红队测试员会向模型提出试探性或危险性的问题来测试模型的反应,以此来发现模型存在的问题,并基于红队测试的结果,对人工智能进行发布前的最后调整,评估系统对齐的稳健性。
随着大模型涌现能力的增强,诸多技术公司正通过开发可扩展训练方法、构建一致的验证系统、开辟压力测试等方式进一步完善价值对齐的技术手段。
(2)价值对齐技术路径的局限
价值对齐的技术路径旨在通过技术手段实现模型的安全可靠,但仅提供了有限的技术方法,缺乏底层的伦理论证和实质的价值内涵。
a.缺乏有效性
虽然人类反馈学习等技术手段在大模型的安全性和精准度上取得了一定的效果,但其有效性仍旧不足。Anthropic和DeepMind的安全团队通过对多种大语言模型安全故障模式进行深入探究,发现使用技术性对齐手段后,大语言模型存在“深度欺骗”的情况。即随着涌现能力增强,大模型会运用欺骗性的奖励操纵策略,达成虚假对齐。不仅如此,大模型还能通过多种方式绕过人类反馈学习的机制,系统会以快速且不可预测的方式进行泛化,使前序对齐失效。
b.缺乏可拓展性
可拓展性问题表现为,人工智能系统在测试环境中的对齐训练中表现完美,但是在测试环境外,训练中学习能力无法扩展,不同的测试环境也无法通用。在人类反馈学习和监督能力不足的区域,大模型仍然进行着无监督训练,其“涌现”风险无法通过现有的对齐技术路线予以规避。更强大的AI系统伴随着隐藏目标(Sub-Goal),即使通过对抗性输入和训练,也普遍存在“越狱”现象影响对齐。
c.受限于人类主观偏好
目前技术手段主要采取混合偏好的方式(如RLHF),这些方式不区分具体的价值,只关注人类的偏好。但是,价值对齐的目标是让大模型符合人类社会的道德和价值观,而非仅限于符合人类的意图,即使人工智能系统能够和人类偏好达成一致,也并不意味着它与人类价值观一致,仅从偏好出发极可能导致进一步的分歧。可预见的是,未来人工智能系统在关键问题上针对不同人群偏好作出的决策和行为将存在差异,极易造成人群之间进一步的隔阂。
价值对齐在技术维度进行了诸多有益探索,但仍无法规避人工智能的涌现性风险,也难以弥合偏好和价值之间的差异。技术路线能够提供技术支撑,但在对齐的价值内涵上,还应回归价值理论与道德设计。
2. 价值对齐的伦理路径
从伦理维度探讨智能机器的道德涉入程度,并进行道德设计的研究成果较为丰富,这些研究为价值对齐伦理路径提供了有效依据。机器伦理学主张用道德设计的方式将道德内嵌于机器之中。随着人工智能技术和道德设计的发展,人工智能道德涉入程度呈现递进的趋势,本文根据道德涉入的不同程度,将其划分为两种价值对齐的伦理路径:“弱进路价值对齐”和“强进路价值对齐”。弱进路价值对齐是与旨在设计为无道德决策能力的智能机器实现对齐的方式,强进路价值对齐是与旨在设计为具有道德决策能力的智能机器实现对齐的方式。
(1)弱进路价值对齐路径及其局限
弱进路价值对齐,旨在将人工智能视为道德行为的客体、无道德决策能力的智能机器,通过价值隐性地嵌入实现价值对齐。
a.弱进路价值对齐的实现方式
弱进路价值对齐将人类价值观视为一种规范性的内容,通过把价值观转化为数据集来训练人工智能。一些学者认为,人工智能虽不具备道德决策能力,但在道德推理中,机器可能比人做得更好,因为机器更理性,不会被情绪左右。因此,可以将人类价值观的一致性内容隐性地嵌入人工智能系统并进行价值调整,以此实现人工智能价值对齐。基于此,弱进路价值对齐的核心问题归结为界定人类价值观的一致性。现有研究集中探讨了人类社会中的价值观集群,并开发出跨文化价值观量表来统计分析应该嵌入的价值观,例如参考“奥尔波特-费农-林赛价值观系统”(AllportVernon-Lindzey Value System),以六种主要价值类型的量表(经济型、理论型、审美型、社会型、宗教型、政治型)构成价值评估的关键基础;参考“施瓦茨价值观量表(Schwartz Value Survey)”确定了十项人类社会普遍认可的价值观(独立自主、权力、公正、博爱、友善、保守、安全、享乐、成就、刺激),对人类价值观一致性的探索有效构成了价值对齐的道德数据集,通过基于数据集的训练和价值观的代码转换嵌入,是弱进路价值对齐的主要实现方式。
b.弱进路价值对齐的局限性
虽然目前弱进路价值对齐在嵌入方式和一致价值观上进行了诸多探索,但仍无法回应价值对齐中的实质问题。
“对齐鸿沟”的问题。由于解释鸿沟、默会知识等问题的存在,机器想要理解或对齐人类价值观具有难以克服的困难,人类的非理性因素进一步加剧了人机差异性,也成了弱进路价值对齐无法跨越的“对齐鸿沟”。正如亚里士多德的观点,德性行为在实践中并非刻板地遵循伦理准则或规范,而是在实践理性的指导下在适当的场合、适当的时候,以适当的方式,为适当的目的,对适当的人而言。人工智能可实现的计算类型被视为一种“低级神经计算”,不同于人类的“高级认知信息处理”,并不能够真正地理解、习得道德观念,并按照道德标准行事。因此,人工智能无法通过简化或扁平化的道德数据集的训练实现与人类价值观的对齐。
价值观难以统一的问题。虽然弱进路价值对齐参考了诸多对人类普遍价值的探索成果,但人类的价值行为本身具有不确定性,价值规则也往往存在着矛盾之处。阿西莫夫的机器人故事说明了依靠道德规则设定道德机器是对道德本质的一种误解,弱进路价值对齐的方式无法通过嵌入既定的、一成不变的人类社会价值观实现对齐。不仅如此,弱进路价值对齐忽视了算法本质上是一种分析、预测的数学方法,强调的是相关性,而非因果性,与人类的价值形成和价值理解等方面都存在歧义,通过价值观嵌入的方式无法回应价值生成的非透明性和价值行为的不可解释性。
静态价值观的问题。弱进路价值对齐预设了静态价值观的前提,但是人类价值观是历史的产物,伴随着人类历史的推演不断更新,并非永久锁定,很难复制。不仅如此,人类价值还是在长期的多元文化影响下动态生成的结果,涉及人类主观的目的和动机,并与情境变化密切相关。弱进路价值对齐尝试通过形式化的计算嵌入价值,无法与人类价值的意向性、目的性和自主性实现对齐。
(3)强进路价值对齐路径及其局限
强进路价值对齐旨在设计具有道德决策能力的智能机器,使其成为道德行为的发起者,让人工智能通过设定的价值程序自主判断和决策以实现对齐。
a.强进路价值对齐的实现方式
当前人工智能已经具备了基本的概念化能力、因果判断能力、反思事实能力和语义能力,而若要成为道德决策的发起者、道德行为的主体以实现对齐,人工智能还需要按照道德规范来行动,并在诸多具体的情境中正确理解和运用道德规则。因此,强进路价值对齐依托道德情感主义理论和情感计算(Affective Computing)技术的发展,通过情感嵌入赋予人工智能道德决策和行为主体的关键性“内在因素”。目前情感计算技术通过设计人工智能所有情感要素的基本功能,设定要素彼此影响的机制,让其具备情感表现的能力,并根据情感与道德的内在联结,使人工智能成为道德行为者,与同样作为道德行为主体的人类实现价值对齐。
b.强进路价值对齐的局限性
强进路价值对齐的关键在于人工智能是否能够通过情感计算的方式,成为道德决策者和行为者,虽然有关学者作出了道德情感主义的相关论证,但其可实现性仍有待商榷。
道德无法化约为一种能力。强进路价值对齐将道德视为一种能力,但实际上,道德不仅是一种规范性思考和情感体验的能力,更是一种在人类社会生活中塑造的道德品质。与此同时,情感体验也包括模糊化的、无法进行善恶区分的情感,如人类的同理心、羞耻感等。一些情感在特殊情境甚至无法明确其是否符合道德,例如在同等条件下,人们会更倾向于帮助自己熟识的人而非陌生人,即使陌生人的境遇更危险,人们通常也不会舍亲救人。因此,很难通过人工智能的道德能力塑造,实现与作为道德主体的人类之间的价值对齐。
情感计算技术的困境。强进路价值对齐通过情感计算实现对齐面临的困境,甚至会带来不可控的风险:一是计算主义的路径难以模拟出与道德行为直接相关的情感能力。AI即使能够嵌入情感系统所具备的诸种要素,却无法真正参与、接受、分担他人的感觉,也无法真切感受他人的痛苦和快乐。二是情感嵌入面临决策难题,多元化的情感体验差异无法调和,而当道德计算面对抉择冲突时将陷入困难处境。三是情感计算伴随着AI被利用为情感操控工具的危机,导致情感单向依赖的风险。
多元主体对齐的复杂性。强进路价值对齐尝试赋予人工智能道德行为主体地位,但是行为主体的复杂性将导致更多障碍。首先,人工智能算法本身并不是价值中立的,算法设计和编写的主体立场、支撑和训练算法的数据的来源、数据内蕴的价值负荷和价值选择,以及智能系统的自主评价和决策,都会赋予人工智能多元主体价值。其次,生成式人工智能的发展使得算法已经成为主体客体化与客体主体化的主客二元交互的产物,人类的主体性地位在其中发挥着决定性作用,想要达成人类与人工智能的价值对齐不可避免地需要考量算法主体背后的个人主体性、群体和社会的意志维度,而界定人工智能的道德主体性极为复杂。最后,目前AI辅助编程的发展,意味着人工智能算法不再是完全意义上人为输入的计算机程序,还将包含以大数据为基础的智能系统“自主学习”的结果,这也意味着对齐的主体将充斥更多的庞杂和未知。
目前已有的价值对齐路径均存在局限性,技术性对齐的方式缺乏有效性和对价值内核的探讨;基于伦理理论的弱进路和强进路的价值对齐无法回应规范的统一性、价值嵌入的有效性,在价值主体问题上面临诸多困境。正如伦理德性需要通过实践来获得,道德行为也是主体间动态交互的过程,价值对齐需要创设人机交互情境,只有人工智能在交互中表现出更多的道德理解和恰当的道德行为,才是真正的对齐。
1. 人机交互关系与交互式价值对齐
人机交互关系是人、机、环境系统相互作用的过程性产物,伴随生成式人工智能的发展,人机交互的合作性和互补性增强,人与人工智能在更高层次互动,人工智能基于人的不同条件下的决策区分价值权重,人类有意识地捕捉人工智能的价值判断过程并提供反馈,人与人工智能在交互关系中能够实现价值理解并从单向性转变为双向性。
基于人机交互关系实现价值对齐的方式即称为交互式价值对齐,旨在在实现人机交互的过程中,人与人工智能基于各自的能动性和两者间的交互性形成共治主体,通过双向适应来实现价值对齐。相较于已有价值对齐的路径,交互式价值对齐具备以下特征:其一,对齐过程的透明性。交互式价值对齐旨在通过人机合作模拟和社会场景模拟的形式来达成对齐,协作过程中人机是显性出现的,人机交互直观可见,不仅有视觉、听觉反馈交互,随着具身智能的发展,还能实现肢体动作、面部表情的交互,以此达成对齐过程的透明性。其二,价值理解的实时性。在输入端,人类的价值反馈能够被人工智能实时捕捉,通过传感器采集到的客观数据与人的主观感知信息整合,形成新的价值识别。不同于单纯的道德规范嵌入,人工智能处理的信息将结合已嵌入的价值规范和实时的价值信息输入,形成新的价值理解。第三,价值判断的匹配性。在输出端,人工智能将根据计算机迭代的算法与人在决策中体现的价值效应相互匹配,形成新的判断。价值对齐是在交互关系中实现的。如同人类社会的价值观是在长期的人类交往过程中形成的,在创设交互情境的过程中,机器的价值判断也将与人类价值判断达到更高的匹配度。第四,交互主体的多元性。交互式对齐的主体涵盖人类-机器、社会-机器、机器-机器等多元主体,反馈和交互过程可实现多方共同参与,能够实现多元价值观对齐的目标且利于有效评估对齐的结果。交互式价值对齐旨在构建人类-机器-环境系统交互的生态,基于客观的数据、主观的价值和交互共生关系有效达成价值对齐的目标。
2. 交互式价值对齐的实现路径
交互式价值对齐基于人类用户与人工智能双向理解、实时反馈、整合信息、价值识别和有效判断的动态交互过程,以实现人工智能与人类的价值对齐。交互式价值对齐的实现方式从人工智能的交互主体性地位出发,基于情境化价值共识,通过人机合作模拟和社会场景模拟的方式实现动态价值对齐。
(1)赋予人工智能交互主体性是价值对齐的前提
在人机交互过程中,人工智能具备交互主体性。交互式价值对齐旨在从人类中心主义的实体思维向关系论的认知思维转变,不再驻足于人工智能是否具备道德主体地位的争论,而是在人机交互关系中确立其交互主体性地位。社会化人工智能(Socially Situated AI)的出现进一步确证了人工智能的交互主体性,智能体在现实社会环境中通过与人类交互、与环境互动能够实现自身的优化,这些交互形式具备多样性,如视觉、语言和行为互动等。使用特殊感受器捕捉人类与人工智能之间的触觉交互,利用C3D分类的机器学习算法的触觉类型,能够获得高达95%的平均识别率,这意味着人机交互的实时和传感程度具备技术可实现性。多样化的交互形式能够进一步为人机价值对齐创造可能。
交互式价值对齐并非从人工智能是否具备伦理主体地位或具备何种程度的伦理主体地位出发,而是将其视为交互关系中的他者、交互过程中的道德赋能者。在海量数据和复杂算法的加持下,当前人类面对的人工智能不再是单一的任务执行者,还是底层的赋能者。由于机器学习中算法的复杂性,机器认识并非简单的叠加和延伸,算法的内部决策会随着对训练数据的深度学习而发生改变,在此过程中甚至出现大量不可预测的过程和结果。至此,人类的认知和解释模式与机器学习中算法的复杂性之间存在认知维度上的鸿沟,人类在认识活动中的地位发生了深刻变化,并逐步失去在认识论中所处的中心地位。因此,要建构非人类中心主义的认识论,承认机器在认识论中应有的价值。同样的,人工智能作为底层赋能者,通过与人类的交互过程提供新的价值理解和判断。正如路易萨·达米亚诺(Luisa Damiano)提出的合成伦理学(Synthetic Ethics)的观点,在技术持续发展的背景下,人类可以与人工智能体建立长期的、生态的、可持续的发展关系。在这种关系中,价值对齐是人与人工智能交互共生的结果,人工智能具备交互主体的地位,能够为适当行为标准的制定提供新的理解和内容。而交互式价值对齐旨在有效利用人工智能技术发展的背景,强调人机交互背景下行为者之间的对齐关系。交互式价值对齐需要人工智能和人类行为者一样,在适当的社会环境和情境中作出适当的反应。而这种适当性的标准并非前置的,和人类社会适当行为的标准间并不强行对齐,而是根据具体情境和背景不断调整行为正当性的标准。
(2)情境化价值共识是交互式价值对齐的关键
正如人类之间的交往行为需要符合道德规范,人工智能与人类的交互过程同样需要共同的道德基础,即价值共识。人类的每一项交往活动都可能存在分歧,但是仍然能够达成共识与和解,其原因在于人类社会存在着价值的共同基础。当下价值对齐面临的关键问题在于对齐什么样的价值、遵循何种原则的问题。在既有价值对齐路径中,大都因为价值的不确定性和无法统一而面临困境,因此交互式价值对齐尝试从交互过程出发,将情境化价值共识作为价值对齐的关键。
情境化价值共识聚焦于价值共识的前提和情境化的要求。一方面,情境化价值共识参考人类社会的基础道德共识,提供的是道德框架。正如程序性伦理中确定的抛除内容的道德框架一样,价值对齐仍旧需要根据情境中、关系性的现实场景进行具体的行为适当性的反馈。在已有研究中能够探寻价值共识的具体表达,例如RICE原则(鲁棒性、可解释性、可控性和道德性)指明了人工智能在行为过程中遵从人类指令、理解人类意图、反馈行为偏好的价值对齐目标;FATE原则(公平、问责、透明和道德)倾向于定义在人机交互关系中人工智能应该具备的更高层次的价值;3H标准(有益的、诚实的、无害的)旨在探寻最合适的价值对齐原则。从中不难看出,这些价值原则体现着人类价值观的一致性。交互式价值对齐旨在构建的价值共识就是现实人类社会共同遵循的价值共识,这些价值虽然宏观但几乎所有的人类文明都会认可并且遵循,如尊重、公正、安全、有利等基本价值原则。但正如现实中一致性的价值并不会代替人类进行伦理思考和决策,人类也是在共同价值的基础上,结合现实情境形成伦理共识。
另一方面,情境化价值共识在应用于具体场景时,价值排序总是情境化的,因此需要结合具体情境进行价值注释(Value Annotation),以实现人机双向理解和对齐。在技术层面,曾有学者提出Axies模型,让人类用户参与到机器理解价值共识的过程中。模型利用人类用户提供的价值负载语料库和自然语言处理技术,引导人工智能系统识别特定上下文(即语言情境)的价值,并进行价值注释,人类用户再对价值注释进行反馈。这一模型将抽象的价值识别任务转化为人机交互进行价值注释的具体任务,并结合了语言情境,在人机双向互动和反馈中,确证人工智能对价值共识的理解。情境化价值共识是确保人工智能系统在执行任务或协助人类决策时,遵循和人类一致的道德标准的关键,但是其本身的界定和评估具有挑战性。因此,交互式价值对齐还需要进一步丰富道德共识的内涵,构建相应的价值数据集来进行训练。例如,丹尼斯·埃梅里(Denis Emelin)等人引入了“道德故事”“社会实验”和“道德语料库”数据集,提供人类社会道德规范的基础学习数据;“非道德行为问答”等数据集用于测试模型在道德上与人类价值对齐的能力;“常识规范库”用来进一步完成人工智能对人类道德注解的训练等。价值数据集因其静态性质,仅具备相对固定的价值评估内容,还易受到针对性训练的干扰,因此情境化价值共识还需要模拟具体的场景以实现动态对齐。
(3)通过人机合作和社会场景模拟实现动态对齐
交互式价值对齐强调对齐的过程性和关系性,旨在通过人机合作和社会场景模拟的方式实现动态对齐。一方面,人类用户基于社会价值提供负载价值的观点,与人工智能进行交互;另一方面,人工智能基于情境化价值共识,完成场景中的价值注释和理解,并在人类的反馈和评估中实现优化。在此过程中道德设计既不是简单地为智能机器输入固定的价值原则,也不是人类置身事外地提供价值反馈,而是在人机动态交互中实现对齐。人工智能在动态关系中成为价值过程的参与者和赋能者,不断调整和完善对具体交互情境中价值的理解。
人机合作模拟以实现对齐。人机合作模拟还原了人类合作的过程,人能够通过智能机器人的“行为”领会到类似人类主体行为的明确意义,而且可以对其“行为”反应的一致性形成稳定预期。在此过程中,智能机器人不再是充斥复杂性和陌生性的对象,以此达成人工智能的可控性,实现价值对齐的目标。目前已有一些技术方法,尝试通过模拟人机合作使人工智能学习人类价值,如学者袁路遥及其团队设计的“XAI”系统给出了人机双向价值对齐的方法。首先,该系统从人与人工智能的双向通信出发,人工智能需要从人类反馈中提取有用信息来推断用户价值观,并调整相应策略;其次,人工智能被要求向用户解释决策过程,并根据现场反馈来预测用户的价值观;再次,赋权用户检查在合作中是否共享了人类价值,实现以人为中心,推动动态-机器和动态-人的交流,引导机器吸纳用户的价值观。在此过程中,传统的数据驱动机器学习的方式被合作中的交流学习取代,任务过程模拟了真实世界的人类社会的合作过程,并以价值学习为任务目标,拓展了人机交互价值对齐的有效方法。通过人机合作的形式,人工智能可以学习并推断人类用户的价值,人类用户能够评估和理解人工智能的价值输出,在培养人机价值理解的双向进程中有效实现了价值对齐的目标。
社会场景模拟以实现对齐。交互式价值对齐创设社会场景模拟,通过与环境的交互,使人工智能逐步具备情境敏感能力。卢西亚诺·弗洛里迪(Luciano Floridi)曾提出道德观建立在充分互动性、自主性和适应性的基础上,建立在符合道德标准的行为方式上。在人机融合发展的智能时代,人工智能需要在交互中训练对其他道德主体责任的理解力,培养为人类社会可持续和良善发展的行动力。通过社会场景模拟的方式,人工智能可以实现对人类行为和社会结构的形式化认知、情境化理解和“行为”的合理输出,实现动态价值对齐的目标。已有学者通过构建现实社会的模型,创设多元化情境,模拟具体社会场景以实现对齐。例如刘瑞博等人建立的“稳定对齐(Stable Alignment)算法”,将人工智能置于模拟的人类社会沙盒中,通过模仿人类的社交互动,让人工智能学习人类社会多元化的价值倾向。人类社会沙盒由以多语言模型为代表的社会主体组成,这些主体彼此交互并记录行为,呈现出互动数据中对齐与不对齐的典型范例。研究者们进一步对这些交互数据进行集体评级和详细反馈来修订响应机制,从而在每轮模拟中逐步完善响应来提高对齐度,为交互式价值对齐提供了有效路径。
人类通过合作和情境交互学习社会规范,确定价值取向并调整行为。对人工智能而言,语言模型本质上是在社会隔离中训练的,并不能直接体验真实的社会生活,也无法获得来自他人的多轮反馈而实现改进。交互式价值对齐旨在克服既有的技术训练方式和伦理设计模式,通过人机合作模拟和社会场景模拟创建一个相对真实的情境,经过多轮交互评估进一步完善人工智能模型的价值对齐质量。
3. 交互式价值对齐的评价
交互式价值对齐并非完全否定和推翻了既有的价值对齐路径,而是在确立人工智能交互主体性地位和情境化价值共识的基础上,通过人机合作模拟和社会场景模拟的方式,建立人类和人工智能长期的、可持续的发展关系。交互式价值对齐从关系论出发,将人工智能行为的适当性还原到人类与人工智能具体交互过程中,价值对齐也成了人与人工智能交互关系的产物。人工智能发展所要求的价值对齐并非只强调人的义务或机器的责任,而是将其视为一种能够调整二者关系的价值范畴,因此交互式价值对齐将人机关系视为优势互补的伙伴关系,而非主客二分的对齐主体,以实现建立在“人机共生”基础上的价值对齐目标。
值得进一步探索的是,交互式价值对齐的未来需要协同社会化人工智能、情境机器人和具身智能等技术共同发展。原因在于,交互式价值对齐的关键在于人工智能和人类交互关系的建构,其考量和评估的依据在于人工智能在交互关系中的表现。人工智能和人类在交互关系中的差异表现源于社会性、身体性和情感性的不同,正如斯图尔特·阿姆斯特朗(Stuart Armstrong)所说,人工智能并不以人类的目标为己任,它并非生物体,甚至无法理解人类所经历的痛苦。人类大脑与人工智能的算法不同,思维不是通过符号处理进行的,而价值也存在着隐性化的知识,即这些知识是建立在感知而不是知道之上。人工智能无法捕捉这种背景意义和知识,只有人类才能理解其中的关联意义,因为人是具象的、真实的、身处于世界之中的存在。因此,依托具身化、情境化和社会化人工智能技术的发展更能有效实现交互价值对齐的目标。
人工智能价值对齐的目标是让大模型成为更可靠、实用且安全的工具,关乎通用型人工智能发展的未来。现有价值对齐的路径大都是从技术手段出发,但仅从人类指令和偏好反馈进行对齐,忽略了价值内涵和动态情境的重要性,缺乏关于什么是真正的“好”的行为的内在知识和生成背景。为了促进人工智能的发展与人类价值目标达成一致,使其更符合人类的期望,需要将价值理论、交互关系和社会情境等更深层次的理解纳入价值对齐的过程。交互式价值对齐通过将人工智能确立为交互主体和对齐价值的“赋能者”,基于情境化价值共识,通过人机合作模拟和社会场景模拟等方式,实现过程性和关系性的动态对齐,以确保大模型的行为和决策在人机交互中不断优化,并能够符合人类社会的价值期望。
原文刊登于《伦理学研究》2024年第5期。
来源:文以传道