王伯鲁 史少春:人工智能价值对齐困难及其实现路径探析

B站影视 2025-02-28 18:53 3

摘要:迅猛发展的人工智能技术正在快速融入当今社会生产与生活的众多领域,进而催生了价值对齐难题。如何促进科技向善,确保人工智能技术与人类价值观念、伦理原则和真实意图相一致,是科技伦理治理的一个重要目标和前沿议题。中国人民大学哲学院王伯鲁教授、中国人民大学哲学院博士研究

迅猛发展的人工智能技术正在快速融入当今社会生产与生活的众多领域,进而催生了价值对齐难题。如何促进科技向善,确保人工智能技术与人类价值观念、伦理原则和真实意图相一致,是科技伦理治理的一个重要目标和前沿议题。中国人民大学哲学院王伯鲁教授、中国人民大学哲学院博士研究生史少春在《国家治理》撰文指出,人们价值观念、现实需求以及所处地位境遇等方面的差异性和动态性,导致对待人工智能的态度和价值诉求不尽相同,这是实现价值完全对齐的困难之源;同时,众多差异化价值诉求中也包含着诸多相同或相似的内容,又存在达成“妥协”的可能,这是实现价值部分对齐的现实基础。人工智能价值对齐是一个包含“一次对齐”和“二次对齐”,从“部分对齐”趋向“完全对齐”的演进过程,也是当今科技伦理治理的重要战线,离不开政府、产业界、科技界、理论界乃至社会各界的互动协同和相向而行。

人工智能价值对齐困难及其实现路径探析

作为人工智能(Artificial Intelligence,简称AI)技术的核心,大模型强大的数据处理和学习能力引发了当今诸多社会领域的变革,通用人工智能(Artificial General Intelligence,简称AGI)曙光初现,将人类带入了数智化时代。以DeepSeek、ChatGPT为代表的生成式人工智能迅速崛起并得到推广应用,它不仅遵循“智能逻辑”,对社会生产、生活带来颠覆性和革命性的影响,而且从根本上重塑人本身。如何确保人工智能系统行为与人类价值观念、伦理原则和真实意图相一致,避免产生有害或误导性输出,即实现与人类的价值对齐,已成为政策制定者和学术界、产业界关注的焦点和亟待解决的问题。价值对齐既是技术进步的内在要求,也是确保人工智能技术安全、可靠、可控的关键所在。本文拟就人工智能价值对齐的哲学渊源、面临的困难及其实现路径展开初步探讨,为人工智能的持续健康发展提供有益思考。

价值对齐概念及其演变

尽管“价值对齐”是一个新概念和新议题,但对于机器人威胁、机器人要符合人类价值导向等问题的探究已有较长历史。艾萨克·阿西莫夫(Isaac Asimov)1942年提出的“机器人三定律”,可视为最早的人工智能价值原则,在一定程度上体现了“人工智能要符合人类价值观”这一基本导向。1960年,“控制论之父”诺伯特·维纳(Norbert Wiener)讨论了限制机器固有目的的必要性,强调机器的发展需要与其性能发展同步。他指出,“我们最好确保机器的用途是我们真正想要的用途”,确保机器执行的目标符合人类的真正需求。这被认为是对价值一致性的最早描述之一,标志着机器伦理和风险防范正式进入科学家视野,并在多学科领域蓬勃发展。

2016年,哈德菲里德·迈内尔(Hadfield-Menell)等人明确提出了“价值对齐”(Value Alignment)的概念和问题,即“确保人工智能系统在追求其特定目标的过程中,能够最大限度地符合人类用户的真实意图。”此后,价值对齐问题逐渐成为人工智能领域的重要议题,特别是随着生成式人工智能的快速发展,大模型经常输出与用户意图及人类价值观相悖的内容,甚至对人类核心价值观带来影响和冲击。在此背景下,确保人工智能模型能够输出符合人类价值体系的“人工智能价值对齐”问题成为当下人工智能领域的关注焦点。2017年,由生命未来研究所(Future of Life Institute,FLI)协调制定的具有广泛影响力的阿西洛马人工智能原则(Asilomar AI Principles),明确将“价值对齐”作为原则之一,提出“对于高度自主人工智能系统的设计,应确保其目标和行为在整个运行过程中与人类价值观相一致。”迪格纳姆(Dignum)也明确提出,“人工智能应该以人类福祉为中心,并与社会价值观和伦理原则保持一致。”拉塞尔(Russell)和诺维格(Norvig)强调,“我们需要发展可证明符合人类价值观的智能,而不仅仅是追求纯粹的智能。”产生这一问题的根源在于:虽然人工智能系统能够按照人们给定的目标行事,并大幅提升生产效率,但很难同步准确遵循人类重视和关心的安全性或道德约束等社会文化规范,时常出现不符合人类主流价值观甚至危害人类生产与发展的多种情况。人工智能与其他任何“属人的”科学技术一样,都植根于人类实践活动的需要,都要服务于人的解放、自由全面发展的价值目标,也必须与人类的价值观对齐。这就像人类幼童经历的社会化过程一样,不同幼童的成长和输出机理犹如一个“黑箱”,家长和老师只能通过结果来判断教育是否有效和妥当。幼童是否应与成人社会主流价值对齐?是否能够对齐?这在本质上虽然与人工智能价值对齐是同一命题,但人类的答案天然是肯定的——尽管个体社会化的结果千差万别,但无论是知识还是价值观,对齐都是现实的选择。

同样,从技术视角来看,基于人类反馈的强化学习(RLHF)、“宪法性人工智能”模式、对训练数据的有效干预以及对抗测试等技术,在实现价值对齐过程中发挥了一定作用,但人工智能系统的运行和内容生成过程仍属于“黑箱”。人类社会对人工智能系统的底层逻辑和运作机理仍缺乏深入而充分的认识,以大数据和深度学习为基础的人工智能系统出现了不可解释和不可理解难题,甚至还出现神来之笔的“幻觉”。这就导致从技术层面实现价值对齐的诸多努力往往低效和存在局限。

追根溯源,这些技术路径都离不开设计人员、研发人员和使用人员的认知和价值评判。面对人工智能技术不可解释和不可理解难题的困扰,从技术上实现价值对齐路径的实际效果有限,有“治标不治本”之嫌。这里需要指出的是,从表面上看,虽然实现价值对齐最终都可以归约为一个“如何做”的技术问题或策略问题,但从本质上讲首先需要澄清“是什么”和“为什么”的价值论问题,势必关涉人们对人工智能价值本身及其对齐诉求的理解与追溯。只有在澄清价值对齐本质的基础上,才能更好地探寻实现价值对齐的路径与方法。事实上,从语义学视角来看,“价值对齐”中的“价值”意指人们的价值观、价值判断和价值标准等。所谓“对齐”就是要求内置或固化于人工智能系统中的价值意向、代码及其标准等始终与人类保持一致, 人工智能系统生成内容的价值观与人类价值观相一致。这里我们需要追问的是:人类的价值观、价值判断或价值标准本身是否就是一致的和稳定的?如果人类的价值观、价值判断或价值标准本身就不一致或是处在频繁变动中,那么所谓的“价值对齐”是与哪些人或哪个阶段的价值观、价值判断或价值标准对齐呢?这种对齐又是何种意义上或程度上的对齐?其合理性、合法性何在?

价值论研究表明,价值性是人的基本属性,具有较强的主观性、动态性、差异性和复杂性,受到历史、地域、文化、族群、阶层、教育程度、工作岗位、问题情境等多重因素的复杂影响。在社会实践活动中,不同语境下人们的诉求或意愿不同,他们的价值观念、价值判断、价值标准和行为方式也往往各不相同,甚至同一个人在不同时空场景下对于同一个事物的价值判断也是有差异的,从而演变为催生众多社会矛盾或冲突的价值论根源。同样,人们在人工智能系统的目标、功能、算法等方面的诉求及其程度也各不相同,因而在价值判断和价值标准问题上往往难于达成共识,所谓的“价值完全(或绝对)对齐”诉求难以顺利实现。这就是由人们价值观上的分歧或对立而引发的对齐困难。

技术的价值负载

技术就是为了满足人们的种种需要而创造的工具、方法、流程及其知识体系,可理解为围绕“如何有效地实现目的”的现实课题,人们后天不断创造和应用的目的性活动序列、方式或机制。从石器时代的简单工具到现代社会的空间站、互联网、人工智能等复杂工具,技术上的每一次飞跃都是人类智慧与创造力的结晶。技术是价值中立的吗?这是科学技术哲学中被经常提及的一个重要话题,受到广泛关注和讨论。笔者持价值负载论立场,因为技术是人类意向性的产物,它的创造与应用并非孤立于社会之外,必然会受到特定历史时期的社会文化、经济制度、政治环境等多重因素的影响,从而被注入研发者、使用者等多方的价值观念或意识形态诉求,承载着丰富的价值内涵,深刻地影响着人类社会的伦理观念、经济结构、文化形态乃至政治格局。

在价值负载论看来,技术性与价值性是人的基本属性,技术并非价值中立,而是负载着伦理、道德、文化、经济等多重价值,体现在技术的设计、研发、应用及其后果等各个环节。例如,一项旨在提高人类健康水平的医疗技术发明,其高昂的成本可能加剧社会不公平,还会加快老龄社会的来临等;一项有助于环境保护的绿色技术的推广应用,可能引发就业结构的变化和社会经济利益的重新分配等。因此,技术的价值负载是技术与社会互动建构的结果,可以从多个维度展开分析。

从伦理维度来看,技术是联系研发者、生产者及其产业上下游、使用者、生态环境等多方的纽带,其伦理价值负载最为直观且引人关注。仅就当代生物技术、基因编辑、人工智能等高新技术的快速发展而言,就催生了一系列复杂的伦理难题。例如,克隆人技术的伦理争议、基因编辑婴儿的道德边界、自动驾驶汽车交通事故的责任厘清等问题,都迫使人们必须重新审视技术的伦理界限。要求技术的发展应当尊重生命、维护人权、促进公平正义,避免成为侵犯人权、加剧社会不公的工具。

从经济维度来看,技术是推动经济发展的重要动力,其价值负载也体现在对经济结构的重塑和利益分配的影响上。一方面,技术创新能够创造新的经济增长点,提高生产效率,促进产业升级。例如,绿色技术创新能够促进产业的生态化改造,节能降耗,推进生态文明建设。另一方面,技术变革也可能导致传统产业的衰落,引发失业潮,加剧贫富差距乃至社会动荡。因此,在推动产业技术革新的同时,还必须关注其经济社会影响,并及时采取有效措施,消解技术变革带来的负面效应,实现经济社会乃至生态环境的持续健康发展。

从文化维度来看,技术既是物质文明的产物,也是精神文化生活的重要载体。随着互联网、人工智能等高新技术的普及和全球化进程的加快,技术正在以前所未有的速度重塑人们的思维方式、生产方式、生活方式和交往方式,进而对传统文化产生了深远影响。一方面,技术为文化传播提供了更加便捷、高效的渠道,促进了不同文化之间的交流与融合,展现出越来越强大的文化纽带功能。另一方面,技术也可能导致文化同质化、娱乐化以及文化冲突等新问题,威胁到文化的多样性和独特性。因此,在技术创新过程中,应尊重和保护文化的多样性,促进文化的协调健康发展。

从政治维度来看,技术还负载着政治价值诉求,扮演着意识形态角色。在智能化时代,技术已成为国家竞争力的重要体现,掌握核心技术是维护国家安全的关键环节。同时,技术也成为政治斗争的重要工具或手段,网络攻击、科技战、信息战、舆论战、认知战等新型安全威胁,无一不是以新技术为载体或内容的。因此,技术创新必须坚持总体国家安全观,服务于国家利益和人民福祉,加强技术创新和安全管理是维护国家安全和社会稳定的重要基石。

以ChatGPT为例,自它推出以来,就不断有灵魂拷问——ChatGPT是价值中立的吗?虽然它标榜中立,但大量研究和证据表明,ChatGPT的意识形态倾向和政治立场极其鲜明。事实上,不仅是ChatGPT,很多类似的大模型都存在较强的价值偏见。美国华盛顿大学和卡内基梅隆大学研究团队的测试表明:人工智能语言模型包含不同的政治偏见,ChatGPT和GPT-4是最左翼的自由主义者,而Meta的LLaMA是最右翼的威权主义者;与GPT系列相比,谷歌发布的BERT及其变体模型在社交方面更为保守。此外,预训练语言模型中确实存在着强化预训练语料中的政治极化偏见,并将社会偏见传播到仇恨言论预测和误导信息检测之中。其实,追求“中立”或“多样性”本身也是一种价值对齐行为。概言之,承认技术尤其是人工智能技术负载多重价值,既是实现价值对齐的基础与前提,也是一个无法回避的现实问题。为此,应具体分析不同人工智能大模型、用户群体和应用场景等条件下的复杂价值关系,在有关各方之间求取现阶段的价值共识,即最大的价值公约数,进而为实现价值部分(或相对)对齐创造条件。

实现价值对齐的技术路径与社会机制

在人工智能研发实践中,通过基于人类反馈的强化学习(RLHF)、有效干预训练数据和对抗测试等技术方法,可实现人工智能价值的部分对齐。这些方法在模型训练和优化中扮演着不同的角色,有助于模型的行为与人类价值观和期望保持一致。其中,基于人类反馈的强化学习(RLHF)的基本思想是通过收集人类对模型输出内容的种种反馈,并以此构建奖励信号来改进和优化人工智能模型的性能,有利于减少模型的偏见,增强其安全性,并显著减少人工智能模型将来产生有害内容的可能性。“宪法性人工智能”模式由Anthropic团队提出,是在无人类反馈条件下完全基于模型训练途径实现人工智能大模型的价值对齐。其基本思想是通过研发一个从属的人工智能模型来评估主模型的输出是否符合特定的原则或规范,并将评估结果用于优化主模型,旨在将价值对齐从低效的“人类监督”转向更高效的“规模化自动监督”。鉴于人工智能大模型的很多问题(如虚假回答、伪造内容、偏见、算法歧视等)来源于训练数据,因此对训练数据进行有效干预也是实现价值对齐的一条重要路径。主要包括对训练数据进行记录以识别问题,通过人工或自动化方式筛选、检测以识别和消除有害偏见,构建价值对齐的专门高质量数据集等。“对抗测试(或红队测试)”是指在大模型发布之前,邀请内部和外部的专业人员对该模型进行多种多样的全方位对抗性攻击,以发现潜在问题并加以解决,以便在该模型推广应用之前弥补可能的缺陷或短板等。

尽管这些技术方法在实现人工智能价值对齐过程中存在着许多缺陷,但不可否认的是他们确实也发挥了一定的积极作用。此外,社会机制的设计与建构也同样重要,使社会机制与技术手段匹配和协调,将不断提高对齐程度。在现实生活中,人们总是会遇到各种各样的矛盾,求同存异、和而不同是社会发展的一种正常状态。在人工智能系统评价上的种种分歧或矛盾也是类似的,既有对立性也有同一性。人们在人工智能系统价值诉求上的分歧,并不能抹杀和掩盖其中所包含的诸多共识或共同的利益诉求,后者正是实现“价值部分(或相对)对齐”的基本前提和现实基础。这也是学界广泛讨论和追求的普世价值、共识价值、共同价值、全球伦理的具体表现。

从科技伦理治理实践看,人工智能的价值对齐主要是在两个层面或分两个阶段推进的,即人工智能技术研发层面或阶段和人工智能用户层面或推广应用阶段。在人工智能技术研发层面或阶段,由于研发者对人工智能技术本身及其危害的认识或预见比较深入细致,更容易快速达成共识,可称为内部共识。这也是近年来人工智能领域之所以率先出台人工智能技术标准、行业伦理规范的原因。然而,在人工智能用户层面或推广应用阶段,受人工智能技术门槛和社会分工的限制,社会大众对人工智能技术本身及其危害知之甚少,往往需要经历一个较为漫长的认识过程才能形成共识,且彼此之间的认知差异较大,可称为外部共识。这就是人工智能价值判断上的差异性。

一是研发阶段的“一次对齐”。不难理解,在人工智能技术研发层面或阶段,以人工智能系统的新功能和高效率为主要目标,以人工智能技术系统的设计和研制为核心任务,技术人员之间彼此协作、频繁互动。这一阶段的价值对齐以内部共识为基础,以研发者认同的法律和公序良俗为底线,以伦理秩序或道德原则为努力方向,赋予人工智能技术系统相关价值规范或评价标准,可称为“一次对齐”。该过程受制于人工智能技术的研发进程。荷兰学派的道德物化理论正是在这个意义上展开的。在“一次对齐”阶段,尽管研发者考虑了多种可能的使用场景及其用户需求,但多属理想化、类型化的虚拟情境,与实际应用情况差距明显,难免百密一疏,加之,研发者本身的认知水平和价值诉求存在偏差,不可能包办或完满实现价值对齐任务。

二是应用阶段的“二次对齐”。在人工智能用户层面或推广应用阶段,多种多样的使用场景及其千差万别的用户类型和需求,促使人工智能系统的局限性、消极影响以及潜在风险充分显现。广大用户的切身感受和迫切期望有助于人工智能技术改进以及应用规范的建构,可称为“二次对齐”。该过程受制于人工智能技术推广应用进程以及广大用户的认识过程。在此,“二次对齐”主要有两条实现路径:一是通过向研发者反馈意见的方式,将用户的感受与建议转化为新的技术设计或改进方案,重塑价值标准或评判规则,推动人工智能技术改进和迭代升级,可称为“内化”途径;二是通过与科技界、产业界、政府机构等部门之间的广泛交流、反复磋商,为人工智能技术的推广应用制订社会规范或守则,促使人工智能技术向善,可称为“外化”途径。当然,这里的价值对齐过程是开放的,需要学习和借鉴国内外乃至其他行业的先进经验,不断创新和改进价值对齐的机制和模式;同时,价值对齐也不是一次就能完成的,而是伴随着人工智能技术发展和社会变迁分阶段持续推进的,不同国家、地区或行业的对齐进程各有特色,总体上展现为滚动递进的进化态势。

这里需要强调的是,在现实生活中,人工智能技术的价值对齐是在时代、资本、权力、欲望、竞争和文化等多重社会因素的影响下展开的,既是多方共识的形成和实现过程,也是多方诉求与力量的博弈过程,从而使价值对齐进程曲折而复杂多变。概而言之,整体划一的价值完全(或绝对)对齐只是一种理想化状态,可望而不可及;现实生活中的对齐都是分阶段逐步实现的价值部分(或相对)对齐过程,展现为趋向价值完全(或绝对)对齐的进程或趋势,永远在路上。

人工智能技术价值对齐的可行路径

面对人工智能技术的快速发展和价值体系紊乱的现实,我们不能简单地回避或否定价值对齐困难,而应当积极探寻价值对齐的可行路径。在现实生活中,由于人工智能等高新技术的规范尚未进入法律视野或立法程序,因而科技伦理治理就成为阻遏技术负效应蔓延的唯一一道防线,肩负着重要的社会历史使命, 人工智能技术伦理治理是人类积极应对人工智能伦理风险和治理难题的应然选择。中办和国办联合发布的《关于加强科技伦理治理的意见》、科技部制定的《科技伦理审查办法(试行)》等文件,就是在这一时代背景下出台的。笔者从技术伦理治理视角出发,结合人工智能技术特征尤其是价值对齐困难,从“价值”“制度”“技术”“生态”和“迭代”等维度,提出推进人工智能技术健康发展的五项治理对策与建议。

一是价值导引:明确人工智能伦理道德原则和价值观。从全球来看,一些国家和组织发布了相关政策文件,明确人工智能系统在设计时应遵循的道德原则。例如,欧盟确定了使用人工智能的四项道德原则:不恶意、尊重自主、算法公平和透明。安娜·乔宾(Anna Jobin)等人基于对84份政策文件的梳理发现,各国人工智能指南中确定的伦理原则主要包括透明度、公平正义等11个方面;全球将围绕其中的5项伦理原则不断融合:透明度、公正公平、不恶意、责任和隐私。党的十八大以来,党中央高度重视科技伦理治理,组建国家科技伦理委员会,完善治理体制机制,推动科技伦理治理取得积极进展。《关于加强科技伦理治理的意见》明确提出了“伦理先行、依法依规、敏捷治理、立足国情和开放合作”的治理要求,并制定了科技伦理治理的五项原则:增进人类福祉、尊重生命权利、坚持公平公正、合理控制风险、保持公开透明。《科技伦理审查办法(试行)》对科技伦理审查的总则、审查主体、审查程序、监督管理等都作出了明确要求。《新一代人工智能发展规划》《新一代人工智能治理原则——发展负责任的人工智能》《新一代人工智能伦理规范》《生成式人工智能服务管理暂行办法》等一系列文件的出台,进一步明确了对人工智能技术的伦理规约和价值引导。未来需要在既有工作的基础上进一步深入和细化,前瞻性地确立人工智能发展的价值原则,其中最为核心的是要坚持人是目的或人本的原则,并明确人工智能全生命周期的伦理道德原则和价值导向;广泛开展宣传和培训,并与基础性教育、专业化培训等相结合,提高其社会知晓度、认可度和遵从度。还需要建立监督和考核评价机制,定期或不定期评估人工智能系统是否符合伦理道德要求和价值导向;并鼓励社会大众积极参与,及时反馈意见和建议,提高人工智能治理的透明度和公正性。

二是制度规约:构建多层次的人工智能发展制度规范体系。坚持发展与安全并重,一方面通过政策引导和资金投入,大力推进人工智能发展。例如,加强基础研究与技术创新,增加对人工智能基础研究的财政投入,支持高校、研究机构和企业实验室探索前沿技术。创建人工智能教育与培训体系,特别是在深度学习、自然语言处理等人工智能内核领域,培养高水平科研人才。促进国内外学术交流与合作,共享研究成果,加速技术升级迭代。鼓励人工智能与制造业、医疗健康、文化创意等产业深度融合,创造新型应用场景。出台专项政策,支持人工智能技术在中小企业中的推广应用,加速产业化进程。加强国际交流与合作,积极参与国际人工智能标准和规则的制定,提升国际影响力。另一方面,也要通过制度化安排强化安全监管。例如,创建完善的人工智能伦理框架,确保生成内容的合法性、真实性和伦理性;制定人工智能技术与应用的行业标准,确保技术安全与规范运行,制定相关伦理准则。建立语料数据保护法规,制定或修订数据保护法律,强化个人数据的保护,明确数据获取渠道,禁止非法或未经许可的数据使用,确保数据收集和处理遵循最小必要原则;保护用户数据的安全与隐私,创建严格的数据处理标准,确保个人隐私在人工智能训练过程中的安全。完善监管机制,建立适应新技术特点的监管机制,防止技术滥用,保障人工智能技术健康发展。人工智能的未来在于平衡创新与责任,通过多层次制度规范体系,构建一个既鼓励技术进步又注重价值导向的环境,这就离不开政府的前瞻性政策、产业界的自我规范、学术界的深入研究以及公众的广泛参与。

三是协同治理:构建共治共享的人工智能治理体系。人工智能发展和应用过程涉及一系列治理主体,不仅包括政府,还有人工智能技术研发者、应用型企业、科研机构、非政府组织和广大用户等。这些不同类型的主体具有不同的特点、诉求、视角和期望,甚至彼此之间还会发生冲突,这无疑增加了治理的难度。因此,要实现有效的人工智能治理,就必须在政府、企业、学界和公众等主体之间建立协同共治机制,共同研究和解决人工智能治理中的一系列复杂问题,推动人工智能健康发展。与传统的统治、管制理念不同,治理是新公共管理理论提出的一个新理念。它是一种由共同目标支持的管理活动,参与此类活动的主体较多,展现为一个促使相互冲突或不同利益诉求的调和,彼此互动博弈、协同合作、联合行动的持续改进过程。因此,将科技伦理治理理念和架构贯彻到人工智能技术研发与推广应用过程各环节,有助于调动社会各方的积极性,推进价值对齐进程,促进人工智能技术的持续健康发展。要实现多方主体的高效协同,还需建立健全协同机制,需要整合各方的资源和优势;建立多方参与的协同平台,制定协同治理的规则和程序,建立信息共享机制和激励相容机制以及明确的职责分工体系,有效调动多方主体共治的积极性。

四是技术突破:打造安全可控的人工智能技术体系。人工智能具有很强的技术复杂性,需要加强技术治理,打造安全可控的技术体系。必须加强关键技术攻关与自主可控,如算法创新、模型优化、计算能力提升等,减少对外部技术的依赖,增强安全性和可靠性。应加大对关键技术的研发投入,支持高校、研究机构和企业进行集中技术攻关,鼓励企业通过政产学研合作,加速技术创新和成果转化。利用隐私计算、联邦计算、数据加密、数据分级分类等技术手段,确保数据的安全可控。采用多样化的数据集进行算法训练,以减少算法偏见;建立算法审计机制,定期对人工智能系统进行审计,及时发现和纠正潜在的价值偏见。建立人工智能系统的解释性标准,要求人工智能系统在设计时就考虑其解释性,并加强对人工智能系统解释性的监管,确保其符合相关规范和标准。建立持续跟踪监控机制,建立监控平台,实时监控人工智能系统的运行状态和输出结果,及时发现问题和潜在风险,并能够迅速采取有效干预和调控措施。

五是敏捷治理:建立快速响应和迭代优化机制。传统治理模式具有滞后性、静态性、单向性和事后性等特点,多基于过往经验和现实情况制定相关策略,难以适应人工智能技术快速发展的需求。而敏捷治理具有灵活性、适应性、合作性和前瞻性等特点,能够较好地适应人工智能技术快速发展趋势。具体来看,敏捷治理强调治理体系的灵活性,能够快速适应不断变化的技术环境;能够根据技术发展的需要及时调整治理策略和措施;鼓励多方参与,形成合作共治的局面,以提高治理的效率和效果;注重预测未来可能出现的问题,并提前制定应对策略。通过敏捷治理方式,并结合试验方法,能够有效提升识别人工智能伦理风险、评估伦理治理框架、化解伦理治理冲突的效能,从而快速适应、灵活应对人工智能带来的挑战。敏捷治理不仅是一种理念,还需要有配套的具体手段和措施,其核心要素包括人工智能发展与应用的动态监测和风险评估、灵活的政策举措、多方参与和合作。通过动态跟踪和评估,建立快速响应机制,及时调整治理措施,制定灵活的政策法规,以适应快速变化的人工智能治理场景。

总体来看,人工智能技术的加速发展冲击着传统社会秩序和价值体系。在推动人工智能技术发展的同时,我们必须清醒地意识到人工智能技术的价值负载及其可能带来的风险与挑战。通过价值引导、制度规约、协同治理、技术突破和敏捷治理等途径和措施,更有效地应对人工智能技术加速发展冲击及其价值对齐困难,推动人工智能技术的健康发展和社会福祉的最大化。

结语

综上所述,人工智能价值对齐涉及社会伦理、法律、经济、文化、政治等多个维度,既是一个复杂的价值论问题,也是一个关涉社会多方利益的实践问题;既关涉社会多方诉求或意向的解读和还原,也需要探寻其中的共同价值诉求及其实现方式。不难理解,这是一个处于快速演化之中的开放的“问题群”,值得全社会关注、警惕、探究和应对。

技术负载着价值,人工智能承载着研发者、训练者、使用者等多方主体的意志或价值诉求,这是价值对齐的基础和前提,也是人工智能具备弱意识形态倾向或功能的证据;可视为印证法兰克福学派有关科学技术的意识形态功能等论述的新情况、新证据,是一个值得关注和探讨的重要理论问题。价值对齐是一个社会多方协同、持续演进的复杂过程,不可能一蹴而就,是进行时态而不是完成时态。前述的一次对齐和二次对齐只是对人工智能价值对齐机制与过程的一种简单化处理,其中的许多细节和环节尚未得到具体分析和充分讨论。这将是后续研究深化和努力的一个方向。

以价值对齐为目标的人工智能伦理治理是当今科技伦理治理的前沿领域,面临着认识与实践的双重挑战:一方面,人工智能技术研发及其应用过程中派生的一系列新问题还需要深入认识和评估;另一方面,如何在价值观、价值判断、现实需求和认识水平存在差异的不同群体之间进行充分沟通和交流,求取价值对齐的最大公约数,也是一个考验人类智慧的实践难题。本文对人工智能价值对齐困难及其实现路径等问题的初步分析和讨论,广度与深度都有待加强,错讹之处也有待学术批评,希望能借此引发学界的关注和讨论,集思广益,为人工智能治理问题出谋划策,促进人工智能的持续健康发展,造福人类社会。

来源:人工智能学家

相关推荐