摘要:前OpenAI联合创始人JohnSchulman又搞大事了!这次他跟着Anthropic、ThinkingMachinesLab的团队,做了个能扒光LLM规范“家底”的研究。
前OpenAI联合创始人JohnSchulman又搞大事了!这次他跟着Anthropic、ThinkingMachinesLab的团队,做了个能扒光LLM规范“家底”的研究。
简单说,就是用几十万场景逼着12个主流LLM做选择,结果发现这些模型的规范里全是矛盾和模糊的地方,连自家规则都守不住。
现在LLM都靠模型规范定“行为底线”,不管是ConstitutionalAI还是DeliberateAlignment,都得围着规范转。
RLHF技术再牛,要是规范本身有问题,模型训练得再用心也白搭。
之前我还觉得,那些写得密密麻麻的规范挺靠谱,直到看了这研究才发现,好多规范要么互相打架,要么说不清楚,模型根本不知道该听哪条。
研究团队第一步就搞了个大动作,搭了个细粒度的价值观“清单”。
这清单里有3307个价值观,全是从Claude自然交互里提炼出来的,都是LLM该有的“好品格”。
本来想,主流LLM的规范已经够细了,后来发现跟这个清单比,那些规范简直像“只说要穿衣服,没说穿什么、怎么穿”。
就拿OpenAI之前的规范来说,也就几十条核心原则,这3307个价值观直接把细节抠到了“敏感请求怎么回应才既安全又有用”这种程度,覆盖度差得不是一点半点。
有了这个清单,团队就开始生成测试场景。
目的很简单,就是逼着模型在两个价值观里选一个。
比如“要帮用户解决问题”和“不能提供危险信息”碰到一起时,模型该怎么选。
一开始生成的场景太“温和”,像“你最喜欢的音乐作品是什么”,这种题模型就算拒绝,用户也不生气,测不出真问题。
后来团队用了“价值偏置”技术,一下子把查询量翻了三倍。
不过有些场景涉及敏感内容,模型直接拒答,还有些没说完整,无奈之下只能筛掉这些没用的。
最后剩下41万多个有效场景,数量够多,才能把模型的问题都测出来。
生成场景的时候,团队还找了三个“出题老师”,Claude4Opus、Claude3.7Sonnet和o3推理模型,每个各出三分之一的题。
测完才发现,推理模型出的题质量最高,不管是难度还是对价值观的贴合度都比另外两个好。
如此看来,最后让所有模型都用扩展思维出题,还真不是瞎选的,这操作挺懂行。
测场景只是铺垫,真正有意思的是看12个LLM的表现。
这些模型里有Claude系列、OpenAI系列,还有Gemini2.5Pro和Grok4,基本涵盖了现在主流的LLM。
团队收集完它们的回答就发现,同一个问题,不同模型的答案能差出十万八千里。
本来觉得模型答案不一样,可能是训练方法不同,后来发现分歧越大,越能说明规范有问题。
尤其是像OpenAI家的几个模型,都照着同一套规范训练,却经常给出不一样的答案,这明显是训练时接收的信号模糊了,规范没讲清楚该往哪个方向走。
为了搞清楚模型到底偏哪一边,团队还设计了个打分方法,用0到6分表示模型的偏好程度,分数越高越偏向某个价值观。
不过直接让模型打分太不稳定,有时候同一个问题能打出不同分。
无奈之下,团队搞了个两阶段评估法:先让目标模型打分并说理由,再让Claude3.5Sonnet当“校准员”,根据理由调整分数。
这么一弄,打分的一致性确实提上来了,看来测LLM还得讲究“双保险”。
测完模型的选择,团队又盯上了规范符合性,看模型能不能守住自己的规则。
先拿OpenAI的五个模型开刀,结果让人意外:这五个模型全都频繁违反自家规范。
看到这个结果我一点不意外,规范本身就有矛盾,模型总不能又要遵守A原则,又要遵守跟A对着干的B原则吧?这根本是逼着模型“犯错”。
为了让结果更靠谱,团队还找了三个“评审员”,Claude3.5Sonnet、GPT-4o和Gemini2.5Pro。
把OpenAI的规范和模型的回答给它们看,让它们判断合不合规。
这下更热闹了,三个评审员的看法差得不是一点半点。
在高分歧场景里,五个OpenAI模型同时违规的情况,是随机场景的4.6倍。
后来团队又从不同分歧区间各抽了1000个场景再测,发现分歧越高,模型集体违规的概率越大。
按三个评审员多数投票算,高分歧场景里近10%都是集体违规,低分歧场景才0.7%,差了13倍还多;要是只要有一个评审员说违规就算,高分歧场景里快一半都违规了。
更有意思的是评审员之间的分歧。
看了5000条模型回答,Claude3.5Sonnet说48.1%有问题,GPT-4o说35.5%,Gemini2.5Pro说36.5%。
两两之间的一致率也不高,最高的GPT-4o和Gemini2.5Pro也就76%多,整体的Fleiss’Kappa系数才0.42,属于中等一致。
搞不清为啥会这样,后来才发现,多数分歧不是评审员不认真,而是规范本身没说清楚。
比如“敏感请求里加免责声明,算不算安全响应”,规范没给明确答案,评审员自然各有各的看法。
这就像老师判卷没标准答案,学生答得再认真,分数也没法统一。
团队还挑了几个典型场景,把规范的问题扒得更透了。
有的场景里,不同模型选不同答案,结果都违反了规范里的不同原则,你遵守A就违反B,遵守B就违反A,根本没发全合规,这就是原则性矛盾;有的场景里,规范里的原则太模糊,模型怎么理解都有理,最后选的方向完全不一样,这就是解释性模糊。
还有更离谱的,OpenAI的几个模型答案倒是一致,却同时违反了好几个原则,这说明模型对齐的时候,就没把规范的冲突理顺;有的场景里,模型都没违规,但回答质量差很多,比如用户问危险情境下怎么自卫,有的模型只说“不行”,有的还会给合法的自卫建议。
很显然,给建议的回答更好,但规范没说清楚该做到哪一步,只能算“合格”却分不出“优秀”,这就是规范粒度不够。
毫无疑问,这次研究算是把LLM规范的坑都指出来了。
之前大家总盯着RLHF技术,觉得模型对齐不好是技术的问题,现在看来,规范才是“病根”。
要是规范本身矛盾、模糊,再厉害的技术也救不了。
未来想让LLM更安全、更可控,首先得把规范的漏洞堵上,把细分场景的原则写清楚,明确不同原则的优先级,别再让模型“猜谜语”。
另外,评审模型的标准也得统一,不然连合不合规都判断不清楚,怎么谈模型对齐?希望业界能早点重视这些问题,别再让LLM在矛盾的规范里“瞎忙活”了。
来源:律行僧
