摘要:OpenAI-O1慢思考后带来了一批新工作,自从OpenAI-O1慢思考出来后,给定一个大的问题,通过问题拆解,然后逐步求解,最终完成的范式成为大家模仿的一种范式,而其又与Agent强关联,所以Agent跟慢思考一结合,很多剧本就有了。
文章转自公众号老刘说NLP
今天,换个话题,谈谈最近的趋势。
OpenAI-O1慢思考后带来了一批新工作,自从OpenAI-O1慢思考出来后,给定一个大的问题,通过问题拆解,然后逐步求解,最终完成的范式成为大家模仿的一种范式,而其又与Agent强关联,所以Agent跟慢思考一结合,很多剧本就有了。
而与其最相关的,其实是多模态的场景,这里讲两个,一个是ominisearch,一个是LLaVA-o1(取得太大了,谈不上是o1,顶多COT)
我们可以从中找到一些思路。
一、先看OmniSearch的混合多模态QA思路
OmniSearch,现在又个现象很有趣,大家都喜欢用omni,例如omniparser,原因在于'omni'是一个词根,表示“全部、全面、普遍的”的意思,通常用来构成一些复合词或缩写词,如omniscient无所不知的,博识的、omnipotent全能的,万能的、omnivore:杂食动物,广食性动物、omnibus:大巴车,综合性的。
《OmniSearch,一个Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent,A Self-Adaptive Planning Agent For Multimodal RAG》,https://arxiv.org/abs/2411.02937,https://github.com/Alibaba-NLP/OmniSearch,Demo:https://modelscope.cn/studios/iic/OmniSearch。
其核心思想在于,使用一个planning agent进行任务规划,包括self-thought, sub-question , retrieval API , and API query 等环节,使用子问题求解器(Sub-question Solver)动态拆解复杂问题,将复杂的多模态问题分解为多个子问题,并为每个子问题制定相应的检索步骤和策略,然后,使用迭代推理与检索(Iterative Reasoning and Retrieval),根据当前的检索结果和问题情境调整下一步的检索策略。
其中有另一个点,就是其中所使用的几个检索器(就是agent中的tools),是一个混合检索。包括不检索(当前子问题不需要检索外部信息);图像检索(通过输入的图像检索相关的视觉信息);文本检索(根据输入的文本内容检索相关的文本信息);跨模态检索(通过输入的多模态数据(如图片加文本)进行跨模态的信息检索)。
此外,还可以再回顾一下针对多模态问答上的一些 方案:
如纯mllms方案,直接针对问题进行发问,
又如,MLLMs+Heuristic mRAG将RAG的环节纳入进去。
其中:
单跳Heuristic mRAG。可以使用输入图像检索图像,这提供了与输入图像相似的图像以及描述性的标题,这种方法通过关于输入图像中描绘对象的视觉知识来增强多模态大模型(MLLMs)。也可以对输入的文本问题进行网络搜索,并将检索到的前k个内容作为补充知识提供给MLLMs。尽管如此,这两种方法可能无法提供精确的支持性知识,因为它们仅利用了输入问题的部分模态作为搜索查询。
双跳Heuristic mRAG。通常,现有的mRAG方法可以概括为两个主要步骤:首先,将输入图像中的视觉概念转换为文本(这一步可以采用由输入图像检索到的排名首位的图像的标题和图像标题模型【生车呢个图像caption】的输出作为输入图像的文本表示);然后,将获得的文本与输入问题结合作为搜索查询,利用网络搜索API从互联网中提取相关知识。对于第一步,我们分别。单步mRAG方法相比,两步mRAG方法可以更精确地提供与问题相关的信息
Ominisearch则进行拆解,如下:
二、再看LLaVA-o1的简单模仿思路
关于多模态进展,将openai O1引入多模态模型,LLaVA-o1,让视觉语言模型逐步推理,LLaVA-o1: Let Vision Language Models Reason Step-by-Step,在推理过程中自主进行多阶段推理,包括总结、视觉解读、逻辑推理和结论生成:https://arxiv.org/pdf/2411.10440,这个工作核心就是蒸馏GPT4-O的数据,然后微调一把,让其模仿openai O1【为啥说模仿,因为只学到了皮毛,并无relfection】。
例如,对于蒸馏GPT4-O的数据工作流程:
这也对齐了其中的四个stage:Summarystage(摘要:一个简要概述,其中模型总结即将进行的任务)、Caption stage(标题:对图像(如果存在)的相关部分的描述,重点关注与问题有关的元素)、Reasoning stage(推理:一个详细分析,其中模型系统地考虑问题)以及Conclusion stage(结论:答案的简洁总结,基于前面的推理提供最终响应),给个直观的例子:
但,很明显,这个又个环节缺失,就是reflection环节没了,缺少反思环节,这个对结果不是很可控。
这个工作另一个点,是多个阶段结果之上,做的一个点推理结果搜索,也就是其stage-beamsearch,思想在于,阶段级束搜索为每个推理阶段(例如,摘要、标题、推理和结论)生成候选选项,并在每个阶段选择最佳选项。
其余的几个,最佳N选一搜索生成N个完整的响应并从中选择最好的一个;句子级束搜索为每个句子生成多个候选选项并选择最好的一个。
总结
本文主要对多模态的场景,这里讲两个,一个是ominisearch,一个是LLaVA-o1,会有一定收获。
参考文献
1、https://arxiv.org/abs/2411.02937
2、https://arxiv.org/pdf/2411.10440
来源:360亿方云