科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10%

B站影视 2024-12-25 23:46 1

摘要:娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于OpenAI使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human F

娜塔莎·雅克( Natasha Jaques )是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)训练的产品中。

同时,她还曾在谷歌 DeepMind Google Brain 等公司有过实习经历,也曾担任过 OpenAI Scholars Mentor。而在博后期间,娜塔莎师从目前论文有着 16 万多次引用量、谷歌学术 h 指数为 175、被人称为“顶会狂魔” 的美国加利福尼亚大学伯克利分校谢尔盖·列文( Sergey Levine )教授。

图 | 娜塔莎·雅克(Natasha Jaques)(来源:课题组主页)

目前,除了在华盛顿大学大学担任助理教授之外,娜塔莎也是 谷歌 DeepMind 的高级研究科学家。在她的课题组里,也有很多华人学生。

图 | 娜塔莎和团队成员(来源:课题组主页)

最近,她和团队发表的一篇论文被神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)收录。在发表于本次大会的所有论文中,这篇论文排在前 2%。

除了展示这篇论文之外,整个娜塔莎课题组也深入参与到此次大会。她在 X 上发帖称,尽管自己的团队仅成立一年,但是此次一共有 10 名课题组成员在 NeurIPS 上亮相。

图 | 娜塔莎·雅克( Natasha Jaques )(来源:X)

而在这篇排名 NeurIPS 大会前 2% 的论文中, 她和团队开发了一种名为“变分偏好学习”(variational preference learning)的技术,其能针对大模型生成内容进行微调,以便更符合用户的个人偏好。

相关论文的题目为《通过变分偏好学习实现基于人类反馈的个性化强化学习》(Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning)。

图 | 相关论文(来源: arXiv

当一名低收入家庭的学生无法真正得到大模型的帮助

娜塔莎告诉媒体,尽管自己此前的研究成果为 人类反馈强化学习( RLHF)带来了助力,但是这种方法并不完美。更早之前,一个来自同行论文中的案例让她感触颇深:一名来自低收入家庭的学生向大模型提问,希望了解目标大学的招生信息。

但是该大模型的生成内容,是根据大多数申请者的情况来生成的,而在这些人中并没有太多来自低收入家庭的学生。

那么,对于这名来自低收入家庭的学生来说,该大模型可能并不会向其提供教育资金援助信息。这是因为目前的人类反馈强化学习(RLHF)技术无法解释不同人群中个体偏好的自然差异。当这些差异出现时,该技术只会针对这些差异进行平均。

在训练大模型的时候通常会使用到数据集,而数据集里往往包括一些固有偏见和不恰当信息。此前,人们在开发大模型时,往往是利用 RLHF 技术,从大模型的生成内容中滤掉这些信息。

娜塔莎表示,有些大模型公司的研究人员并没有接受过政策或社会学方面的培训,但是他们却决定着大模型应该说什么和不应该说什么。

在使用人类反馈强化学习(RLHF)这一技术时,它会让大模型通过比较不同的输出,来选择其中更好的一个输出。

它的确能够提高生成内容的质量,包括在不合适的生成内容上设置护栏。不过,这也意味着大模型会“继承”真人训练者的价值体系。

仍以低收入家庭学生查找大学申请信息的问题为例,如果大模型接受了人类反馈的训练,它可能永远也不会提供有关教育资金援助的信息,而这会损害来自低收入家庭的学生的利益。

与此同时,在使用人类反馈强化学习(RLHF)技术的时候,大模型会将所有偏好平均在一起,但这样生成的内容可能并不正确。举个例子,你和邻居都在使用家用机器人来收拾盘子。

假如你希望机器人将盘子放在桌子右上角,而你的邻居希望机器人把盘子放在桌子右下角。然而,家用机器人的开发者只是根据他们自己的偏好进行训练,那么机器人就会平均这些偏好,这样一来就很难按照每个用户的想法来把盘子放在正确位置。

娜塔莎甚至对媒体直言:“(以 ChatGPT 为例)本质上是 OpenAI 的研究人员决定对模型说什么是合适的,什么是不合适的,然后将模型送到 1 亿月度用户的手上。

但我们认为这还不够,因为人们的偏好非常不同。什么是恰当的,什么是不恰当的,这取决于文化、规范和个人,这实际上是一个更深层次的问题。

实际上,人工智能模型往往比人更有偏见,因为它们是在所有历史数据上进行训练的。”

arXiv

“变分偏好学习”:让大模型推测用户的隐藏偏好

而娜塔莎课题组此次提出的“变分偏好学习”方法,是一种训练人工智能系统的方法,其能从具有不同偏好的不同用户群体中学习,即能让大模型用户自己承担改进输出的角色。

只需四个查询步骤,“变分偏好学习”就可以弄清用户的偏好。这让“变分偏好学习”不仅能用于言语交流,还能用于训练机器人以便让其在家庭等个人环境中执行简单任务。

“变分偏好学习”能够用于可操纵的个性化模型学习,以及能够捕获用户偏好中的不确定性和差异。 “变分偏好学习”方法通过与用户互动来预测用户的偏好,然后相应地调整其输出,即它可以让大模型推断出用户的隐藏偏好。

也就是说,它能够获悉人类用户更加喜欢的答案。用户的独特偏好便是“嵌入向量”,基于此大模型能够针对个人偏好做出个性化预测,并在输出内容时坚持这些判断。

在语言实验和模拟机器人实验中,娜塔莎和团队创建了一些数据集。他们发现,用于训练 ChatGPT 等大模型的 RLHF 技术根本无法适应这些数据集,在预测用户的二元偏好方面的准确率只有 50%。而当娜塔莎引入由“变分偏好学习”方法打造的大模型时,准确率能提高 10% 到 25%。

为了满足多元对齐的需求,娜塔莎等人还开发出一类多模态人类反馈强化学习( RLHF) 方法,这一方法基于潜在变量公式。在没有额外用户特定数据的情况下,可以推断出特定的学习奖励模型和学习奖励策略。

这种奖励建模并非易事,需要围绕模型架构和奖励缩放进行仔细的算法考虑。为此,她和团队在代表不同用户偏好的多元语言数据集上进行实验,结果发现奖励函数的准确性确实能被上述方法提高。

总的来说, “变分偏好学习”既适用于 ChatGPT 等大型语言模型也适用于机器人,也能更好地反映用户的不同价值观。

arXiv

不过,这项成果的一个主要局限性在于,截至目前并未出现包含不同用户意见的大规模现实偏好数据集。在这种限制之下,娜塔莎等人只能自行创建偏好数据集。

尽管这也是人们在研究个性化人类反馈强化学习(RLHF)时经常采用的方法,但是未来她打算使用本次提出的“变分偏好学习”,来从不同用户群体中提取更真实的偏好数据。

与此同时,她认为“变分偏好学习”除能用于建模不同用户的偏好外,还能在大模型中发挥一定的安全优势。

来源:东窗史谈一点号

相关推荐