Openai-o1后续前沿进展非全面总结

B站影视 2024-12-19 11:45 2

摘要:先研究下OpenAI's o1 Model的推理范式都有哪些。《A Comparative Study on Reasoning Patterns of OpenAI's o1 Model》(https://arxiv.org/pdf/2410.13639)研

从性能评测到复现两个方向的探索概览

文章转自公众号老刘说NLP

本文看综合看openAI O1的整体工作,两个方面,一个是能力评测,一个是目前的一些模仿工作,总共涉及到9个工作,我们可以从中找到一些思路,可参考。

多思考,多总结,勤归类、多总结,总会有更多收获。

一、Openai-o1的复现代表工作

先研究下OpenAI's o1 Model的推理范式都有哪些。《A Comparative Study on Reasoning Patterns of OpenAI's o1 Model》(https://arxiv.org/pdf/2410.13639)研究了OpenAI的o1模型在不同推理任务中的表现,特别是与现有的测试时计算方法(如BoN、Step-wise BoN、Agent Workflow和Self-Refine)的比较。总结了o1模型的六种推理模式【系统性分析(SA)、方法重用(MR)、分而治之(DC)、自我细化(SR)、上下文识别(CI)和强调约束(EC)】。

这些模式在不同任务中的应用有所不同,例如,常识推理任务(如HotpotQA和Collie):o1模型倾向于使用上下文识别(CI)和强调约束(EC)模式。CI模式帮助模型总结与查询相关的不同方面的上下文信息,而EC模式则强调生成文本的约束条件,以防止生成过长的推理过程;在数学和编程任务(如USACO和AIME)中,o1模型主要依赖方法重用(MR)和分而治之(DC)模式。MR模式使模型能够快速应用已知的经典解决方案来解决数学问题,而DC模式则通过将复杂问题分解为子问题来解决整体问题。

既然如此,那么就可以蒸馏,那么《LLaVA-o1: Let Vision Language Models Reason Step-by-Step》(https://arxiv.org/pdf/2411.10440)这个工作核心就是蒸馏GPT4-O的数据,然后微调(用Llama-3.2-11B-Vision-Instruct作为基础模型)一把,让其模仿openai O1,例如,对于蒸馏GPT4-O的数据工作流程,后面改名为LLaVA-COT:

这也对齐了其中的四个stage:Summarystage(摘要:一个简要概述,其中模型总结即将进行的任务)、Caption stage(标题:对图像(如果存在)的相关部分的描述,重点关注与问题有关的元素)、Reasoning stage(推理:一个详细分析,其中模型系统地考虑问题)以及Conclusion stage(结论:答案的简洁总结,基于前面的推理提供最终响应),然后在推理阶段,推理时阶段级束搜索方法,能够在每个阶段生成多个候选结果并选择最佳结果,从而实现推理时扩展。

传统的“捷径学习”强调快速结果导向、大量数据依赖、有限的泛化能力和缺乏自我修正机制。所以,《O1 Replication Journey: A Strategic Progress Report -- Part 1》(https://arxiv.org/pdf/2410.18982),相比之下,“旅程学习”鼓励模型不仅学习解决方案的捷径,还学习完整的探索过程,包括试错、反思和回溯。实验分为两个阶段:监督微调和直接偏好学习(DPO)。在监督微调阶段,首先进行捷径学习,然后进行旅程学习。在直接偏好学习阶段,使用nucleus采样生成20个响应,并从中选择5个正样本和5个负样本进行训练。在监督微调阶段,使用Abel数据集的120k个样本和PRM800K数据集的6,998个样本进行初始微调。在直接偏好学习阶段,使用MATH Train数据集的12,000个样本。

而进一步的,可以再进行全方位集成,如《Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions》(https://arxiv.org/pdf/2411.14405)通过结合Chain-of-Thought(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新推理策略,提升大型语言模型(LLM)在复杂现实世界问题解决任务中的推理能力。

其中,Chain-of-Thought (CoT) Fine-Tuning中使用过滤后的Open-O1 CoT数据集、Marco-o1 CoT数据集和Marco-o1指令数据集对Qwen2-7B-Instruct模型进行全参数微调。

Monte Carlo Tree Search (MCTS)将LLMs与MCTS集成,使用模型的输出置信度来指导搜索并扩展解决方案空间。每个节点代表一个推理状态,可能的动作是LLM生成的输出。展开阶段继续进行推理直到终止状态,奖励分数 用于评估和选择有前景的路径。

然后,使用推理动作策略,在MCTS框架内探索不同的动作粒度(步骤和迷你步骤),并提示模型自我反思(如“等待!也许我犯了一些错误!我需要从头开始重新思考”)。

在结论上,在MGSM数据集上,Marco-o1-CoT在英语子集上表现优于Qwen2-7B-Instruct。

进一步的,回到数据蒸馏,尤其是在多模态模型方面,尽管LLMs在文本推理方面取得了显著进展,但在视觉语言任务中,高质量的长链推理数据仍然不足。缺乏大规模、高质量的视觉语言推理数据集;现有的训练方法在提升长链推理能力方面效果有限;直接监督LLMs处理复杂的长链推理数据效果不理想。

所以,《insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models》(https://arxiv.org/pdf/2411.14432,https://github.com/dongyh20/Insight-V),设计了一个数据生成流程,首先,通过推理生成器逐步生成推理过程。对于每个输入查询,推理生成器会提供当前步骤的简要总结、详细推理响应和下一步的动作。如果动作是继续,模型会在下一次迭代中进行额外的推理步骤;如果动作是总结,模型会基于完整的推理过程生成最终总结和答案。具体来说,推理生成器的输入是图像、问题和前一步的推理结果,输出是当前步骤的简要总结、详细推理响应和下一步的动作。通过重复这个过程N次,可以迭代地采样N个结构化的响应。

其次,使用多粒度评估系统确保数据质量。首先,应用一个强LLM(如Qwen2)进行直接答案过滤,过滤掉错误的答案。然后,将剩余的推理过程传递给一个推理路径评分代理,该代理使用一个高级多模态模型(如Qwen2-VL)评估推理路径的准确性。评分代理根据推理路径的逐步准确性和细节水平进行评估,并为每个响应生成1到100的分数。通过这两个步骤,构建了一个结构化、高质量的推理数据集。

最后,设计了一个多代理系统(还是Agent),将问题解决过程分解为推理和总结两个步骤。推理代理负责生成详细的推理过程。它接收输入图像、问题和前一步的推理结果,并生成一个逐步的推理过程。推理代理使用迭代DPO算法来增强生成稳定性和质量。通过训练,推理代理能够生成更详细、结构化的推理过程。 总结代理选择性地回答问题,接收推理代理生成的推理过程和问题,并根据推理过程的准确性选择性地回答问题。总结代理的训练数据包括具有最佳推理过程和存在缺陷的推理过程的数据,以防止模型简单地复制推理结果,而是鼓励对推理质量进行批判性评估。通过这种设计,推理代理和总结代理协同工作,提高了整体推理性能。DPO算法通过多次迭代生成新的偏好对,并使用奖励模型进行评估。

二、OpenAI-o1的测试代表工作

OpenAI o1推出后,最直接的工作就是测试它在不同任务中的表现,例如,今年9月份的工作《Evaluation of OpenAI o1: Opportunities and Challenges of AGI》(https://arxiv.org/pdf/2409.18486)这个工作,通过对OpenAI的o1模型进行全面的评估,展示了其在多个复杂推理任务中的能力。

o1模型在代码生成、放射学报告生成、机器人命令规划、自然语言推理、定量投资、低资源语言翻译、教育问答、学生写作改进、3D布局生成、芯片设计、逻辑推理、表到文本生成、高中级数学竞赛等任务中均表现出色。

例如,o1-preview模型在其推理过程中显式地引入了链式思维,将复杂问题分解为中间步骤,模仿人类的问题解决过程。这种方法特别适用于需要多步推理或数学问题解决的任务。o1-preview能够逐步分解问题,生成一系列中间步骤,从而逐步推导出最终答案。例如,在高中数学竞赛和大学数学问题中,o1-preview能够详细展示解题步骤,提供清晰的逻辑推理过程。o1-preview在生成答案时,会展示其思考路径,使得用户能够理解其推理过程,增强了模型的可解释性。

o1-preview能够清晰地解释均值回归、ARIMA模型、随机振荡器等金融概念,展示其对金融市场的深刻理解。 市场分析:模型能够进行趋势分析、季节性分析和残差分析,结合这些分析进行市场预测,显示出其在量化投资中的潜力。

关于性能的测试,目前也是另一个方向,在大家的印象中,CoT提示就是其中一个很直观的点,因为CoT提示已被证明在许多任务中提高了模型性能,特别是在涉及符号推理的任务中。然而,最近的研究表明,CoT主要在数学和符号推理任务中带来收益,而在其他任务中效果不明显甚至有害,例如,《Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse》(https://arxiv.org/pdf/2410.21333),发现,链式思维(Chain-of-Thought, CoT)提示在某些任务中会降低大型语言和多模态模型的性能,从认知心理学文献中选取了六个典型任务,这些任务在人类中由于言语思维或推理而降低性能。这些任务包括隐式统计学习、视觉识别和分类包含例外的情况。

具体的,在隐式统计学习任务中,模型需要判断新字符串是否属于同一类别。实验结果表明,使用CoT提示的模型在440个问题上表现显著下降。例如,OpenAI o1-preview在使用CoT提示时的准确率下降了36.3%,而其他模型如GPT-4o和Claude 3 Opus的准确率也分别下降了23.1%和8.0%。这表明CoT提示在这种任务中会显著降低模型的性能,可能是由于CoT提示引入了额外的推理负担,导致模型在处理简单模式时表现下降。

在面部识别任务中,模型需要从五个候选图像中选择匹配的人脸。实验结果显示,所有测试的视觉语言模型(VLMs)在使用CoT提示时的表现均有所下降。例如,GPT-4o的准确率下降了20.0%,Claude 3 Opus的准确率下降了32.73%。这表明CoT提示在这种任务中也会显著降低模型的性能,可能是由于CoT提示引入了语言描述的细节,干扰了模型对视觉信息的处理。

在分类包含例外规则的数据任务中,模型需要在多轮中学习标签,每次迭代后接收反馈。实验结果表明,使用CoT提示的模型需要超过四倍的学习轮次才能达到直接提示的准确率。例如,GPT-4o在使用CoT提示时需要超过四倍的学习轮次,增加了331%。这表明CoT提示在这种任务中会显著降低模型的学习效率,可能是由于CoT提示引导模型过于依赖一般化的规则,而忽略了具体的上下文信息。

而说到推理,大家的感觉应该是,这种是真实的底层能力,还是依靠记忆来做的,所以,又有了这些的评测,如《OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?》 (https://arxiv.org/pdf/2411.06198),探讨OpenAI的Orion-1 (o1)模型在数学问题解决中的推理能力,特别是它是否依赖于记忆而非真正的推理,也就是o1模型的泛化能力,即其在处理未见过的问题时是否能展现出真正的推理能力,而不是简单地依赖预训练数据中的记忆。所以使用国际数学奥林匹克竞赛(IMO)和中国国家集训队(CNT)两个不同难度和公开度的数据集进行比较,评估了o1模型的问题解决能力。

在结论方面,o1-mini在公开数据集(IMO)和私密数据集(CNT)上的表现没有显著差异,表明其问题解决能力主要基于推理而非记忆。尽管o1-mini在某些情况下能够提供有用的直觉和正确的解决方案,但在详细逻辑推理方面仍存在不足,特别是在处理“搜索型”问题时,未能充分证明其他可能解的存在。

但既然如此,那么如果单纯从prompt这角度来观察,又会有什么发现,因此,也可以最近《From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond》(https://arxiv.org/pdf/2411.03590)的发现,其通过系统评估o1-preview模型在多个医学基准上的表现,来探索运行时策略的有效性。

其中,Medprompt策略,这个是很早的策略了,其当时出来的时候说会比微调更好,Medprompt策略包括动态少样本提示、链式思维推理和集成。动态少样本提示通过在运行时提供几个相关示例来引导模型,链式思维推理鼓励模型逐步推理,集成则通过多次独立运行的答案投票来确定最终输出。

通过对比发现,o1-preview模型通过强化学习在生成最终响应之前进行推理,能够在推理过程中动态增加计算资源以提高性能。

该模型的训练过程中集成了链式思维推理,使其在推理时具有固有的复杂问题解决能力。

结果表明,o1-preview模型在多个医学基准上表现出色,甚至在零样本提示下也优于使用Medprompt的GPT-4模型。长问题集的准确率高于短问题集,表明o1-preview模型在处理更复杂问题时表现更好。此外,少样本提示对o1-preview模型的性能有负面影响,而定制提示和集成策略则显著提升了性能。集成策略通过多次独立运行的答案投票来确定最终输出,进一步提高了准确性。在MedQA基准上,o1-preview模型在较低成本下实现了较高准确性。与GPT-4 Turbo相比,GPT-4o模型在成本和准确性之间实现了更好的平衡。

总结

本文主要介绍了openaiAI O1的整体工作,两个方面,一个是能力评测,一个是目前的一些模仿工作,共涉及到9个工作,当然并不是很全,但已经能够说明一些方向,通过评测,来发现其一些表现,但对于其本质模式的探究显然更有意义。此外,如何优化数据蒸馏,或者集成更多方式,也会是一个不错的方向。大家可关注。

参考文献

1、https://arxiv.org/pdf/2411.14432
2、https://arxiv.org/pdf/2411.14405
3、https://arxiv.org/pdf/2411.10440
4、https://arxiv.org/pdf/2411.06198
5、https://arxiv.org/pdf/2409.18486
6、https://arxiv.org/pdf/2411.03590
7、https://arxiv.org/pdf/2410.21333
8、https://arxiv.org/pdf/2410.18982
9、https://arxiv.org/pdf/2410.13639


来源:360亿方云

相关推荐