DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力

B站影视 2024-12-27 19:21 1

摘要:1822 年,电学之父法拉第在日记中写到“既然通电能够产生磁力,为什么不能用磁铁产生电流呢?我一定要反过来试试!”。于是在 1831 年,第一台发电机被发明,推动了人类进入电气化时代。

1822 年,电学之父法拉第在日记中写到“既然通电能够产生磁力,为什么不能用磁铁产生电流呢?我一定要反过来试试!”。于是在 1831 年,第一台发电机被发明,推动了人类进入电气化时代。

与之相似,作为全球亿万富翁之一的查理芒格将逆向思维作为他投资的重要思维模型之一,他有一句很著名的话:如果我知道自己会在哪里死去,我就永远不去那里。

这些都说明了逆向思维的重要性,而作为当前实现通用人工智能最具希望的道路,大语言模型(Large Language Models,LLMs)是否具备逆向思维?

近日,Google 的 DeepMind 在_"Reverse Thinking Makes LLMs Stronger Reasoners"_文章中给出了明确的答复:

逆向思维训练 LLM 可大幅度提升模型推理能力!!!

作为人工智能研究领域的领头羊,DeepMind 的研究成果一直是人工智能领域的风向标,例如 2014 年的 AlphaGo,2017 年的 Alpha Zero 向世人展示了强化学习的强大能力;2016 年的 AlphaFold 开启了利用人工智能研究蛋白质折叠,并于 2024 年助力其研究者 Demis Hassabis 斩获诺贝尔化学奖,这也是首次由人工智能研究者获得该奖项。

DeepMind 这篇关于逆向思维训练 LLM 的工作也为未来的 LLM 研究提供了全新的思路。

以下是文章传送门:

论文题目:

Reverse Thinking Makes LLMs Stronger Reasoners

论文链接:

简而言之,这篇文章从数据合成,知识蒸馏的角度展开研究,通过构建能够揭示逆向思维过程的数据集,然后利用知识蒸馏框架,借助教师模型指导学生模型的训练过程,从而实现利用逆向思维提升 LLM 的推理能力。

逆向思维:从确定的目标状态出发,通过分析因果链条,找到实现目标的路径。这种方法在问题较为复杂,正向思维容易迷失方向时特别有效。

以上是 ChatGPT 给出的逆向思维的基本解释。从直观上理解,逆向思维就是从答案反推问题。例如:“Emma 有 2 个苹果,Jack 有 3 个苹果,一共有几个苹果?”。

正向思维就是“2+3=5”,得出一共有 5 个苹果。

而逆向思维可以理解为:“已知一共有 5 个苹果,现在 Emma 有 2 个苹果,请问 Jack 有几个?”。

这么做有什么好处呢?一方面使用逆向思维能够更加明确推理路径,另一方面能够验证正向推理得到的答案是否正确。而这种思想其实已经在很多场景下有所应用。例如在机器翻译中,源语言和目标语言之间是存在互译的双向关系的,使用这种双向关系能够有效提升翻译的质量。

既然逆向思维非常有效,那为什么在大模型推理中并没有广泛应用呢?

作者认为主要的问题还是数据

大多数的推理数据只有正向的推理过程,并没有逆向推理结果;

已有的一些逆向推理工作大多是集中在高度结构化的数据中,例如数学问题。这种问题可以通过简单的替换变量,替换条件实现逆向推理数据的构建。

那如何在更广泛,结构化更低的领域中利用逆向思维提升推理效果呢?

DeepMind 给了一个非常好的示例:

逆向思维如何实现

如上图所示:本文的主要流程可以分为如下步骤:

数据合成过程

针对原始的 QA 问题,借助 LLM 构建从 Q->R 的正向推理过程,同时仅保留得到正确答案的推理过程

构建详细的指令(针对每个任务),结合问题和答案,构建逆向问题

使用相同的 LLM,针对逆向问题,生成对应的逆向回答

使用检验函数进行正向推理和逆向推理的一致性检查,仅保留一致的结果数据

模型训练过程(优化目标构建)

正向推理优化:利用正向问答 Q->R 优化模型,即模型要根据问题进行正确的推理回答

逆向问题生成:利用正向问题和逆向问题 Q->优化模型,即模型应该具备逆向思维的能力,学习正向问题和逆向问题之间的联系和区别

逆向推理优化:利用逆向问答 ->优化模型,同样实用化模型需要根据问题进行正确的推理回答

本文使用了多任务学习的方法对以上三个优化目标进行同时优化,可以使用以下的优化目标函数进行形式化表示:

其中表示的交叉熵损失函数。

逆向思维效果如何

针对逆向思维提升 LLM 的推理能力,本文选择了多个推理任务(常识推理,数学推理,表格数据推理,自然语言推理,和逻辑推理),并且使用了两个不同的基础大模型(Mistral-7B,Gemma-7B)进行效果验证。

从下图中可以看出,本文提出的方法,分别在不同的基础大模型,不同的推理任务上均取得了非常好的效果。

除此之外,本文还分析了何种逆向推理数据会更有效。具体如下图所示,可以得到如下结论:

同时使用正向问答 Q->R 和正逆向问题 Q->也能够有效提升模型的性能。

单独使用逆向问答 ->会降低模型性能,主要原因可能是该类型数据会出现数据分布漂移情况。

最后,介绍本文中一个比较有意思的验证实验,作者探究了本文所提出的方法在处理不同问题类型和问题难度时的表现,最后发现,模型对一些可逆的问题和中等难度的问题有较好的表现,例如,代数问题,计数问题等。

数值理论分析问题上逆向思维并没有太大的效果。作者认为主要原因是这些问题没有办法进行逆向思维。与此同时,本文的方法对中等难度的问题有最大的提升,这点很有意思,值得深入研究。

正如前文提到的,本文通过设计精巧的提示词,直接使用 LLM 生成逆向推理的数据,本文也在附录中展示了相关的提示词,可以作为一种数据生成方法的有效参考。当然,经过仔细阅读这些提示词,个人感觉这里仍需要一些人工筛选,我们无法保证 LLM 一定能够根据设定的提示词进行准确的逆向推理的生成。

这点个人本来是有比较大的期待的,没想到最后的解决方案是一种大力飞砖的方法,用最好的大模型直接合成,然后在此基础上进行筛选,从而构建高质量的逆向思维训练数据。果然目前阶段人工智能还是得有人工才有智能。

当然,也不得不说在目前模型结构,训练方法都没有太大突破的阶段,数据资源反而成为重要的突破方向,而 LLM 强大的生成能力反过来使得构建高质量数据变得高效低成本,那么如何借助 LLM 强大的生成能力,合成能够帮助解决实际问题的数据,通过模型训练和对齐,实现具体问题的解决就成为当前的简洁高效的框架。

从这个角度讲,新的 idea 不就在路上了么!

检验一流智力的标准,就是看你能不能在头脑中同时存在两种相反的想法,还维持正常行事的能力”。

——《了不起的盖茨比》

阅读报告全文,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所:2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成:十年回顾

《以人为中心的大型语言模型(LLM)研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来?世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学 、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

Deepmind:AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 人工智能篇

国际电联:迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织:2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等,AI 智能体:探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学:AIGC 发展研究 3.0 发布版 b 版

OpenAI:2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报 从复杂系统角度评估人工智能风险

复旦大学 大模型 AI 代理的兴起和潜力:综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告:《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会 德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德 全球灾难风险评估

斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频

华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)

CASA:2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS:2024 光伏应用趋势报告(英文版)

ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告(2024 - 2029 年)》

《军事自主系统:未来之路》美空军

空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

Artificial Intelligence Review:人工智能与物理学相遇的综述

麦肯锡:全球难题,应对能源转型的现实问题

欧米伽理论,智能科学视野下的万物理论新探索(研究论文)

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights:未来变革者:2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)

OpenAI o1 评估:AGI 的机遇和挑战(280 页)

世界知识产权组织:2024 年全球创新指数

美国白宫:国家近地天体防御策略与行动计划

上下滑动查看更多

来源:人工智能学家

相关推荐