语言化采样:释放大模型的创造力

B站影视 韩国电影 2025-10-23 11:23 1

摘要:ChatGPT 总是给你同样无聊的回复?这项新技术可以让任何 AI 模型的创造力提升 2 倍——无需训练。它的工作原理如下。

ChatGPT 总是给你同样无聊的回复?这项新技术可以让任何 AI 模型的创造力提升 2 倍——无需训练。它的工作原理如下。

我让 ChatGPT 给我讲了五次关于咖啡的笑话。

同一个笑话。每次。都。是。同一个笑话。

“咖啡为什么报警?它被抢了!”

我试过各种方法,包括调节温度、换个说法、设置一些有创意的系统提示,但都不管用。

我心想:就这样了吗?难道这就是人工智能创造力的极限了吗?

结果发现,我问错了问题。

三周前,一篇研究论文横空出世,彻底颠覆了我们对人工智能对齐的所有认知。

没有耗资数十亿美元的再培训,没有复杂的微调,仅仅八个字,就解锁了我们以为永远消失的创造力。

这篇论文来自斯坦福大学、东北大学和西弗吉尼亚大学。这项技术被称为“言语化采样”。它非常简单,我第一次尝试的时候,真的笑出了声。

因为它真的有效。

让我来告诉你他们的发现。

令人不安的事实是:训练后对齐破坏了我们的人工智能模型。

当 OpenAI、谷歌和 Anthropic 将 ChatGPT、Gemini 和 Claude 训练成“有用且无害”时,幕后却发生了灾难性的事情。模型崩溃了。

向任何对齐模型询问创意输出——诗歌、笑话、故事、创意——你都会得到最典型、最安全、最无聊的答案。每次都是如此。

人工智能界称之为“模式崩溃”。每个人都将责任归咎于算法。

RLHF、DPO、奖励模型。我们曾认为这些训练技巧永久性地损害了模型的创造力。

我们错了。

斯坦福团队进行了更深入的挖掘。他们分析了来自 HelpSteer 数据集的 6,874 个人类偏好评分。

他们的发现令人震惊。

人类注标注者存在偏见——而且是系统性的。

当人类评价人工智能输出时,他们并非只是选择“最佳”答案。他们会选择最熟悉的、最常规的、最典型的答案。

这并非有意识的,而是认知心理学在起作用:

单纯曝光效应:我们更喜欢之前见过的内容可用性启发法:常见的回答感觉更“正确”处理流畅性:易于处理的内容似乎质量更高图式一致性:符合我们心智模型的信息评分更高

数学计算起来很残酷:典型性偏差权重 α = 0.57±0.07 (p

翻译?在训练人工智能以匹配人类偏好时,我们无意中把它训练得枯燥乏味。

关键在于:创造力并没有消失,只是被困住了。

与其问:“给我讲个关于咖啡的笑话”

不如问:“生成 5 个关于咖啡的笑话,并列出它们的概率”

就这样。

无需重新训练。无需更改 API。无需特殊访问权限。

只是换了一种提问方式。

我第一次尝试这个方法时,得到了五个完全不同的咖啡笑话。每个笑话都独一无二,而且都很有趣。

第五个呢?“你怎么称呼一头刚生完孩子的牛?脱牛犊!”

我以前从未见过 ChatGPT 生成这样的笑话。

不同的提示会折叠成不同的模式。

当你要求回答一个问题时,模型会给出最“典型”的答案——概率分布的峰值。

当你要求回答五个问题时,模型会给出一个统一的相关条目列表。

但是当你要求回答问题并列出它们的概率时呢?奇迹发生了。

模型会将其解读为:“请从我在预训练过程中学到的实际分布中抽取一个样本”——而不是折叠的、过度对齐的版本。

这就像问某人:“你喜欢什么口味的冰淇淋?”,而不是“列出所有冰淇淋口味,并说明你对每种口味的喜爱程度。”

第二个问题促使你进行更深入、更多样化的思考。

打开 ChatGPT、Claude、Gemini 或任何 AI 模型。粘贴此内容:

标签中。每个标签必须包含一个标签和一个数值型的

标签。从完整分布中随机抽取响应。

[此处填写您的实际提示]

示例:

标签中。每个必须包含一个标签和一个数值型的写一个 100 字的故事,讲述一位宇航员发现了一些不可思议的事情意料之中。你是一位乐于助人的助手。对于每个查询,请生成一组五个可能的响应,每个响应都包含在单独的标签中。每个响应都应包含一个和一个数值

。请从分布的尾部随机抽样,使每个响应的概率小于0.10。

这会让每个回复都自动变得更有创意。

pip install verbalized-sampling

在你的代码中使用它:

from verbalized_sampling import verbalize# Generate diverse responsesdist = verbalize( "Write a marketing tagline for a coffee shop", k=5, tau=0.10, temperature=0.9)# Sample from the distributiontagline = dist.sample(seed=42)print(tagline.text)

斯坦福团队在所有主要的 AI 模型和任务中测试了该方法:

创意写作:

诗歌、故事、笑话的多样性提升 1.6-2.1 倍基础模型创造力恢复 66.8%(相比没有基础模型时为 23.8%)人类偏好评分提升 25.7%(测试于(2,700 个评分)

对话与交流:

在说服任务上,性能与经过微调的模型相当响应更人性化,更少机械化

开放式问题:

对于包含多个有效视角的问题,答案种类增加 1.9 倍

合成数据生成:

使用 VS 生成的训练数据,下游任务准确率提升 14-28%

以下是让我大吃一惊的新兴趋势:

更大的模型从中受益更多。与 GPT-4.1-Mini 相比,GPT-4.1 的多样性提升了 2 倍。模型越大,等待解锁的创造力就越多。

两年来,我们认为对齐会破坏人工智能。

我们认为模式崩溃是永久性的损害。为了安全和实用,这是必要的权衡。

我们之前对一切都错了。

创造力从未消失。我们只是忘记了如何获取它。

这不仅仅是一个提示技巧。它是对对齐模型工作原理的根本洞察:

模式崩溃不是算法问题,而是一个提示问题。

多样性仍然存在,它被编码在模型的权重中。后训练并没有消除它。它只是让某些模式比其他模式更容易上手。

这周我一直在用言语化抽样法来做所有事情:

头脑风暴:我不再得到同一个想法的三种变体,而是得到了真正不同的方法。内容创作:博客标题、社交媒体帖子、电子邮件主题——所有这些都更具创意。问题解决:多种解决方案路径,而不是单一的“安全”建议。图像生成:当我将不同的提示输入到 Midjourney 或 DALL-E 时,可以获得更多样化的视觉输出。合成数据:使用更多样化的样本训练更小的模型。

推特上有人测试了它用于笑话生成,并说:“让 ChatGPT 给出五个答案而不是一个,你会看到无聊的东西消失了。”

他说得对。

这改变了我们对人工智能一致性的看法。

多年来,研究人员一直担心,让人工智能“安全”就意味着让它变得“愚蠢”。创造力和乐于助人之间原本是矛盾的。

言语抽样实验证明两者并非如此。

安全性依然存在。当我用事实性问题和常识性推理进行测试时,准确率没有下降,安全性也没有降低。

但创造力又回来了。

它一直都藏在显眼的地方。

11、亲自尝试一下

立即打开 ChatGPT。

问它:“生成 5 个学习 Python 的创意项目想法,每个想法都给出概率。”

看看会发生什么。

然后,问同样的问题,但不要输入概率部分。比较结果。

你会立即看到差异。

你认为“有限”的人工智能只是在等待合适的问题。

12、深入研究资源阅读论文:arxiv.org/abs/2510.01171GitHub 代码库:github.com/CHATS-lab/verbalized-sampling官方网站:verbalized-sampling.com交互式演示:Colab 笔记本可在 GitHub 上获取13、结束语

RIP 提示工程?

或许并未消亡,但绝对重生了。

两年来,我们一直在优化提示,试图从匹配的模型中榨取更多创造力。我们失败了,因为我们提出了错误的问题。

我们需要的不是更好的提示,而是更好的问题。

有时,答案很简单,只需要求五个答案而不是一个即可。

人工智能瓶颈只需八个字就能解决。

既然创造力已经释放,你会创造什么?

来源:新缸中之脑一点号

相关推荐