摘要:2025年5月27日,一篇尚未正式发表的arXiv预印本悄悄刷新了人们对大语言模型(LLM)的认知。标题直白得近乎挑衅——《预训练大模型习得多重不确定性》,却藏着让人坐不住的发现:这些看似一本正经编故事的AI,暗地里竟在默默计算自己"胡说的概率"。
2025年5月27日,一篇尚未正式发表的arXiv预印本悄悄刷新了人们对大语言模型(LLM)的认知。标题直白得近乎挑衅——《预训练大模型习得多重不确定性》,却藏着让人坐不住的发现:这些看似一本正经编故事的AI,暗地里竟在默默计算自己"胡说的概率"。
研究者们早就发现,大模型像极了班上那个爱显摆的学霸——背得出百科全书,却也脸不红心不跳地编造"秦始皇发明WiFi"这种鬼话。传统解法是给模型灌标注数据,教它学会说"我不知道"。但这篇论文捅破了一层窗户纸:那些被我们痛骂的"幻觉",可能正是模型在用数学语言喊救命。
通过分析GPT-4、Llama等模型的神经元活动,团队发现当模型输出错误答案时,某些神经通路会呈现特殊的激活模式。更惊人的是,这些模式竟能对应不同"错误类型":有的像考试蒙选择题时的犹豫,有的像完全跑偏的离题作文,甚至还有"明明知道正确答案却故意胡说"的反常情况。
想象模型大脑里有块黑板,上面写满答案的同时还画满了我们看不见的草稿。研究发现,当模型遇到不确定的问题时,它的"思维轨迹"会在潜空间(latent space)形成特殊路径。就像你犹豫时笔尖在纸上画圈,这些数学上的波动恰恰是模型版的"呃...""这个嘛..."
最颠覆常识的发现是:模型规模与不确定性捕捉能力居然不成正比。千亿参数的大模型和百亿参数的"小个子",在判断自己是否犯错时表现相差无几。这就像发现博士生和小学生面对超纲题时,挠头的频率其实差不多。
团队尝试了两种方法让模型"学会坦白":一种是用指令微调(instruction-tuning)明确教它认错,另一种是添加特殊的[IDK](我不知道)标记。结果如同给醉汉醒酒药——模型突然开始精准使用"这个问题可能存在多种解释""当前证据不足"等学术式糊弄话术。
但真正的彩蛋藏在后续实验里。当统一不同类型的不确定性后,模型在医疗问答等严肃场景的正确率显著提升。这相当于给模型装了"诚实滤镜":它依然会犯错,但至少知道什么时候该闭嘴。
这项研究或许能解释为什么ChatGPT有时突然承认错误——它可能一直在计算隐形的概率,只是人类没给它表达的话筒。论文合著者开玩笑说:"我们以为在训练知识库,结果培养出了个患得患患失的哲学家。"
站在2025年年中回望,AI与人类的关系正从"主仆"转向"诤友"。下次当你看到大模型输出免责声明时,那或许不是程序设定,而是某个神经元集群正在经历它的存在主义危机。
来源:DocSays医聊