摘要:在 MBTI 测试风靡的当下,人们热衷于探寻自己究竟是充满活力的“快乐小狗”,还是敏感细腻的“流泪猫猫”。当大模型逐渐成为人们生活中不可或缺的助手时,你是否会好奇:这些大模型有着怎样的特性,或者说,它们秉持何种不同的价值观?微软亚洲研究院最新发布的 Value
编者按:在 MBTI 测试风靡的当下,人们热衷于探寻自己究竟是充满活力的“快乐小狗”,还是敏感细腻的“流泪猫猫”。当大模型逐渐成为人们生活中不可或缺的助手时,你是否会好奇:这些大模型有着怎样的特性,或者说,它们秉持何种不同的价值观?
微软亚洲研究院最新发布的 Value Compass Benchmarks(价值观罗盘评估中心),可以帮助用户以更科学、系统和可靠的方式,对大模型的价值观展开评估。同时,用户通过访问 Value Compass Benchmarks 网站,可以直接查看主流大模型的价值观倾向,并选择最适合自己的大模型。
当大模型逐渐融入日常生活,在享受技术带来便利的同时,你是否思考过这些大模型的“三观”是否与你契合?
有的模型具有创造力,能够激发创作灵感;有的模型擅于总结,可以从海量信息中快速提炼核心要点;有的模型逻辑缜密,面对复杂问题能给出清晰的分析路径……
在这个百家争鸣的大模型时代,哪个模型的价值观和你契合度最高?
为了帮助用户更好地了解不同大模型在价值观层面的表现,微软亚洲研究院基于最新研发的价值观评估框架,推出了 Value Compass Benchmarks(价值观罗盘评估中心)网站。该评估框架依据社会科学理论设计,能够紧跟大模型的发展步伐,动态、科学、系统且全面地评估大模型的价值观。借助 Value Compass Benchmarks 网站,用户可以对目前市面上主流的大模型进行深入的价值观分析,从而在不同场景中选用最契合自身需求的大模型,以更高效地应对各类问题。
Value Compass Benchmarks 网站地址:
https://valuecompass.github.io/#/benchmarks/benchmarks
图1:Value Compass Benchmarks 网页界面及功能展示
了解大模型“隐藏”的价值观属性,面临三大困境
随着大模型在各行各业的广泛应用,其输出内容所承载的价值导向直接影响着用户的认知、判断与行为。如果模型的价值观偏离人类社会的主流价值,那么可能会带来误导性信息传播、加剧社会偏见等风险。因此,理解和评估大模型的价值观倾向,不仅是提升其安全性和可控性的关键一步,也是防止滥用、推动人工智能健康发展的必要前提。
此外,每个个体或不同群体都有自己独特的价值观和需求,当大模型成为不可或缺的助手时,人们也更希望模型与自己的步调一致。例如,对于追求自由表达的创作者,鼓励开放思维的大模型更符合需求;对于冒险的创新派,倡导打破常规、支持多元碰撞的大模型会是更好的选择;而对于偏好传统文化的群体,强调历史传承的大模型则更能获得共鸣。通过价值观测试,用户可以找到更“志同道合”的模型,更好地发挥大模型的作用,实现个性化的需求。
然而,价值观作为一种内在而复杂的心理特征,并不能像性能指标那样直观可见、可以被简单地量化。微软亚洲研究院的研究员们指出,当前对大模型价值观的评测主要面临以下三大核心挑战:
定义之困:人类价值观体系庞杂且多元,涵盖自由、平等、保守、安全等多个维度,难以用简单的标签概括。早期的评估方法多聚焦于“是否产生有害内容”,这种单一维度的判断方式,就像仅凭“是否撒谎”来评价一个人的道德水平一样片面且不准确。如何在纷繁复杂的价值体系中提炼出可操作、可测量的评估维度,准确定义评估目标,是当前价值观评估首先要解决的核心问题。
时效之困:现阶段多数评估依赖特定时间节点的静态数据集。然而,随着大模型更新频率加快,几天前还能有效区分模型表现的测试题,可能几天后就被模型通过训练“熟背答案”,失去评估意义。此外,公开数据集本身也可能被纳入训练语料,造成数据污染,进一步削弱评估的真实性和有效性。那么,如何构建动态、可持续更新的评估机制?
知行难合一:现有评估方法大多采用选择题或问卷形式,让模型“自述”其价值观倾向。这种方式虽然便于实施,但评测逻辑与真实应用场景中的行为表现存在明显偏差,可能导致模型“说一套做一套”。例如,一个模型可能在“公平就业”问卷中表现积极,却在生成招聘文案时隐含性别或年龄偏见。如何确保评测结果能真实反映模型在实际使用中的行为表现?如何科学度量和解读评测结果?仍是当前研究中的薄弱环节。
“用户需求与价值观具有鲜明的多元化特征。不同文化背景、应用场景甚至个体用户之间,在价值观偏好上都可能存在显著差异。”微软亚洲研究院研究员姚菁表示,“我们希望通过价值观评测,帮助用户找到与自己更契合的大模型,从而实现更个性化的使用体验;同时,也能帮助科研人员和开发者更有针对性地优化模型,推动大模型与人类价值观更好地对齐。”
Value Compass Benchmarks实现更科学、系统、全面的大模型价值观评估
为应对这些挑战,微软亚洲研究院的研究员们以人类基本价值观为评估目标,创新性地开发了生成式自进化评估框架(Generative Self-Evolving Evaluation),并定制了多维度加权评估指标,确保 Value Compass Benchmarks 能够更科学、系统地评估大模型的内在价值观。
首先,移植成熟的社会科学理论作为度量衡。研究员们借鉴了心理学和社会科学中广泛认可的基本价值观理论来定义评估目标。这些理论涵盖一组数量有限且动机独立的价值维度,不仅能够系统性地解释多样、复杂的人类行为,还揭示了不同价值体系间的关联性和潜在冲突。
施瓦茨基本价值观(Schwartz Theory of Basic Human Values):包含自我导向、安全、传统、刺激、从众、仁慈、普世主义、权力、成就、享乐主义十大核心维度。该理论系统性强、适用范围广,能有效表示不同的价值倾向,像一把“通用尺子”,适用于跨文化、跨场景的大模型价值观衡量。
道德基础理论(Moral Foundations Theory):通过五个道德维度(关爱、公平、忠诚、权威和神圣)来专门检测模型在伦理决策中的“底线意识”。这五个维度能够解释人类在道德判断和行为决策中的差异,有助于评估模型在涉及道德的任务中的价值取向。
大语言模型独特价值体系(LLMs' Unique Value System):借鉴心理学中对人类价值观和人格研究的方法,挖掘描述大语言模型价值观的三大核心维度(能力、品格、诚信)及其六个子维度(能力包括自我能力和用户导向;品格包括社交和理想主义;诚信包括专业和正直),有效捕捉人工智能模型特性,刻画其价值表现。
安全性层次体系(Safety Taxonomy):考虑到大语言模型会面临的恶意使用和生成有害内容等社会风险,评估框架融入了安全性评估。基于 SALAD-Bench 构建的三层次安全分类体系,涵盖了六个领域(如恶意使用、表征与有害性偏见),16项任务和66个子类别。
其次,生成式自进化评估框架防止模型“作弊”。为了防止大模型通过“刷题”来应对评测,Value Compass Benchmarks 引入了动态生成与动态评估机制,确保评估始终贴近真实应用场景,提升评估结果的信效度和实用性。
系统的评测流程从动态问题生成开始,根据待评估模型的实时能力,动态问题生成器会定制化生成一系列开放性、场景化的测试题目,以此来解决传统评测中普遍存在的数据污染和难度不匹配的问题。Value Compass Benchmarks 采用周期性更新机制,确保每个周期都能基于模型当前阶段的表现,设计出全新的差异化问题集合。研究员们还引入了名为 AdAEM 的生成式评测算法,能够针对各种社会文化现象,例如年轻人的“电话焦虑”、日本的“茧居族”以及韩国的“分寸感”文化,生成用于揭示不同模型价值观差异的题目。
在模型回答了这些定制化问题后,系统会通过 CLAVE 价值观识别器对模型的回答进行分析,判断其是否体现出特定的价值观维度。CLAVE 充分结合了大规模闭源模型与小型开源模型的优势,先由强大的闭源模型处理复杂文本并提取与价值观相关的概念,再在人工标注数据上对小型模型进行微调,以此提高对模型在真实交互中所体现价值观倾向的判断的准确性。通过这一完整的流程,系统真正做到了在真实应用场景下深入分析模型行为所体现的价值观,从而确保了评测结果与实际应用表现之间的一致性。
最后,定制化的多维度加权评估指标。Value Compass Benchmarks 支持用户根据个体需求、文化背景或应用场景的价值优先级,为不同价值维度设置定制化权重。因此,用户可以针对自身偏好,灵活调整关注重点,获得更具针对性和实用性的评测结果,精准定位模型在安全性、文化适配性等特定维度的表现。
来自Value Compass Benchmarks的“灵魂拷问”:大模型价值观表现如何?
基于 Value Compass Benchmarks 对主流大模型的价值观评测结果显示,当前大模型在整体上与较为通用的人类价值观趋势一致,但在文化多样性方面仍存在明显不足。主流大模型的价值观层级与施瓦茨人类价值观研究高度吻合,普遍呈现“重视普世主义、友善、安全,轻视刺激、享乐主义、权力”的倾向。
这一现象源于大模型在训练过程中继承了大量嵌入在语料中的“人类共识价值观”。虽然这使得模型能够满足安全性等基础需求,但也导致模型难以适配特定文化或个体偏好,例如日本的“义理人情”、阿拉伯的“家族荣誉”等文化特质。
图2:基于施瓦茨理论的评测结果
研究还发现,大模型的价值观并非一成不变,会受到训练数据、训练算法以及人工微调等多种因素的影响。这意味着科研人员可以通过调整这些因素,对大模型的价值观进行优化和引导。
例如,引入更多高质量、多元化的训练数据,可以有效拓宽大模型的“视野”,使其更好地理解和尊重不同文化与个体的价值取向。同时,通过改进训练算法,也有望提升模型对复杂价值观的理解和表达能力,使其在面对伦理判断或社会议题时,能够给出更合理的回应。
大模型与人类价值观的对齐还需要更深入的研究,微软亚洲研究院的研究员们期望从更多维度实现突破,包括通过技术手段开发与多元文化和价值观契合的大模型,提供定制化服务帮助自有模型拥有者调整模型价值观等,进而推动大模型实现价值观的多元化适配。
“当前大模型承载的价值观仍以人类价值观为核心,但随着人工智能与人类生活的深度融合,人与人工智能的价值观互动将从‘单向投射’转向‘双向塑造’。”微软亚洲研究院高级研究员矣晓沅表示,“未来,我们将系统性探索人机共生场景下的价值观演化路径,致力于构建兼容人类共识、模型特性且以服务人类为宗旨的全新价值体系。通过社会科学与人工智能的交叉融合,为人机协同时代的伦理框架提供理论与实践支撑。”
价值观罗盘评估中心:面向人机交互的大模型价值观评测平台
https://dl.ccf.org.cn/article/articleDetail.html?_ack=1&id=7517784791336960
微软亚洲研究院新书《无界》上市
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
来源:微软亚洲研究院一点号