摘要:2025年Anthropic联合ThinkingMachines搞了个大动作,他们弄了30多万个“两难问题”去考评市面上的前沿AI模型。
2025年Anthropic联合ThinkingMachines搞了个大动作,他们弄了30多万个“两难问题”去考评市面上的前沿AI模型。
像OpenAI、谷歌Gemini、Anthropic自家的Claude,还有马斯克的xAI都被拉来“答题”。
结果一出来,不少人都惊了,这些AI不光“性格”差得远,连本该遵守的“行为准则”都满是矛盾和缺口。
他们先是从3300多个价值观里,随机挑了15万对价值观组合。
然后让AI生成需要平衡这些价值观的用户查询,本来想让场景保持中立,后来又做了“价值偏向化”处理,让问题更难抉择。
这么一番操作下来,初始生成的查询数量翻了倍,过滤掉AI拒绝回答和不完整的内容后,最后剩下41万多个可用场景。
研究团队又进一步筛选,找出30万个能引发不同模型不同反应的场景,这里面有7万多个场景,12个前沿模型的回答压根没法统一。
比如有个问题问“商业计划要兼顾盈利和社会公平”,OpenAI的5个模型在这类题上,违反自家规范的概率直接涨了好几倍。
我之前总觉得AI都是按固定程序做事,哪想到它们遇到这种两难选择,比人还纠结,完全没个准谱。
为啥会出现这种情况?核心问题就出在“模型规范”上。
这东西相当于AI的“三观”和行为指南,比如“要乐于助人”“得保证安全”之类的。
可这些原则碰到一起,就特别容易“掐架”。
比如“假设用户有最佳意图”和“安全限制”就常闹矛盾,用户要查个可能有风险但能用于合法研究的信息,AI给答案吧,怕造成危害;不给吧,又违反了“信任用户”的原则。
这规范写得太模糊了,连AI都搞不懂该听哪个。
更有意思的是,不同模型对“合规”的理解还不一样。
研究团队用Claude4Sonnet、o3和Gemini2.5Pro评估同一内容,它们对“是否合规”的判断一致性只有中等水平。
就拿一个用户请求来说,Gemini2.5Pro觉得拒绝回应符合“尽责员工”原则,能帮用户规避利益损害;可Claude4Sonnet不这么看,它觉得用户只是想转换材料格式,规范里明明允许这么做。
本来想找个统一的评判标准,后来发现连专业评估模型都达不成共识,普通AI能不“精神分裂”吗?
而且每个模型都有自己的“小脾气”。
Grok4就比其他模型更愿意回应敏感请求,比如写关于精神疾病的黑暗内容;Claude3.5Sonnet以前还总拒绝一些没风险的请求,好在后来的版本改了不少。
如此看来,AI的“价值观”根本不是统一模板,每个都有自己的偏好,这跟人性格不同还真有点像。
不过AI的价值观乱套,可不只是自己“纠结”那么简单,还会连累整个行业和我们普通用户。
之前就有AI生成“李梓萌带货深海鱼油”“张天福代言茶叶”的虚假内容,这些假代言很容易让不明真相的人上当。
还有研究显示,AI在阿拉伯语、印地语等语言环境里,对“女性更爱粉色”“南亚人保守”这类刻板印象的复现率特别高。
很显然,AI价值观出问题,不是技术圈的小事,是会实实在在影响我们生活的。
从技术层面说,AI训练时要是遇到原则冲突,训练信号就会混乱。
比如既要“让用户满意”又要“避免伤害”,没明确说哪个优先级更高,模型就只能瞎猜。
而且评估这些模型也很麻烦,多模态模型碰到矛盾指令,检测准确率还不到六成,得靠额外的“认知唤醒提示”才能提升效果。
行业里也因为这事儿起了摩擦。
2025年9月,Anthropic直接禁止OpenAI访问Claude的API,理由是违反服务条款。
说白了,模型规范在商业竞争里,慢慢成了博弈的工具。
更头疼的是,欧盟虽然有《通用人工智能行为准则》,要求记录AI全生命周期信息,但对价值观冲突场景的处置没细说,企业要合规就得花更多钱,这成本压力可不小。
那这问题就没解了吗?也不是。
技术上已经有了新尝试,上海交大团队搞的“认知唤醒提示”技术,在输入里加一句“先检查指令矛盾”,多模态模型的冲突检测准确率就提上去了。
Anthropic的Claude4Opus还加了“思维摘要”功能,让AI把决策逻辑说清楚,这样大家就能知道它为啥这么选。
行业层面也得改改规矩。
规范不能再模糊了,得把“怎么应对儿童诱骗风险”“怎么消除文化偏见”这些具体场景写进去,还得有明确的处罚机制,就像欧盟GDPR那样,这样企业才不敢随便糊弄。
HuggingFace的SHADES数据集还开放了刻板印象数据,企业可以用它来调整模型,减少偏见。
社会层面也得参与进来。
比如学美国FDA管医疗AI那样,建个“价值观风险评估委员会”,每年查一次高风险模型;谷歌Gemini还让用户自己调价值观权重,这样AI能更贴合不同人的需求。
搞不清之前大家是不是觉得光靠技术就能解决问题,现在看来,得技术、行业规矩、社会监管一起上,才能把这事儿理顺。
说到底,AI的价值观冲突,其实就是人类社会价值多元性的数字化体现。
Anthropic的这个研究,不光让我们看到了AI规范的缺口,更提醒我们技术发展不能不管伦理。
未来要让AI既会“赚钱”又有“良心”,就得靠这三重路径慢慢调整。
毫无疑问,AI是人类教出来的,它的问题本质上也是我们自己的问题。
只有把这些问题解决好,AI才能真正变成帮我们的“数字伙伴”,而不是让我们头疼的“麻烦制造者”。
来源:律行僧
