16种新型RAG最新进展

B站影视 2024-12-16 18:52 2

摘要:RAG,可以说是大模型时代最成功的落地模式之一,通过检索-生成的方式,极大的拓展了大模型的应用边界, 但是,RAG 在落地实践上却没有那么简单。相信做过 RAG 系统的小伙伴都碰到过如下的问题:

RAG,可以说是大模型时代最成功的落地模式之一,通过检索-生成的方式,极大的拓展了大模型的应用边界, 但是,RAG 在落地实践上却没有那么简单。相信做过 RAG 系统的小伙伴都碰到过如下的问题:

什么场景或问题下需要检索?1+2=?的计算题好像不需要,但为什么 1+2=3 好像就需要。

检索到的信息是否有用?是否正确?

检索到的信息怎么用?直接与用户的问题拼接还是需要进行信息压缩后拼接?

以什么逻辑进行召回?召回信息是否需要排序?

……

这些问题没有“放之四海皆准”的答案,在不同的场景、数据下,解决方案各不相同。

从 23 年 RAG 火爆以来,各类 RAG 框架或解决方案没有上百也有几十个了,AnythingLLM、RAGFlow、Ollama 等,每一个都能搭建出一个完整基于 RAG 的知识库,但是通用 ≠ 好用。每一个场景、甚至每一个人的数据都是独特的,这对于 RAG 系统的效果带来了巨大的挑战。但这也带来了 RAG 领域研究的百花齐放。

今天,和各位小伙伴,一起看下最近的几篇关于 RAG 的文章,了解下学术界在 RAG 上探索。

可以看出以下几个趋势:

专业化趋势:许多 RAG 变体都针对特定领域进行了优化,如医疗、金融、材料科学等

多模态融合:越来越多的 RAG 技术开始处理多模态数据,如视频、图像、文本的结合

安全性考虑:随着 RAG 技术的普及,安全性问题(如 RAG-Thief 所研究的)也开始受到关注

效率优化:新的 RAG 变体都在尝试通过各种方式提升处理效率,降低计算成本

可解释性提升:许多新方法都强调了可解释性的重要性,试图让模型决策过程更透明

你有没有遇到过这样的情况,让 RAG 回答一个问题,它要么给出一大堆相关但不够准确的信息,要么干脆答非所问。这就像一个初入职场的新人,虽然知识储备不错,但不太懂得“抓重点”。

针对这些基础问题,研究者们提出了一系列创新性的解决方案。比如中科院提出的 AutoRAG,它不再是简单地“给什么找什么”,而是让 RAG 系统学会自主判断。

假设你问“谁是《怪物史莱克》中驴子的配音演员?”,普通的 RAG 系统可能会傻乎乎地去搜索所有包含“驴子”和“配音”的资料。但 AutoRAG 会这样思考:

看到区别了吧,AutoRAG 就像一个会自主思考的助手,知道该怎么一步步找到最准确的答案。同时,它还可以用自然语言解释自己的思考过程,让你明白它为什么这样做。这种透明度在实际应用中特别重要。

CORAG 则从另一个角度提出了解决方案。现有的 RAG 系统在选择文本块时往往独立考虑,忽视了文本块之间的相关性。这就像是在解答一个复杂问题时,只看到了各个零散的知识点,却没有将它们有机地联系起来。

CORAG 的核心创新在于使用蒙特卡洛树搜索(MCTS)来探索文本块的最优组合顺序,同时引入配置代理来动态调整系统参数。它就像是在玩一个高级版的拼图游戏:

不过,这种方法也有其局限性:构建和遍历策略树需要较多计算资源,参数的调整也需要仔细权衡。

我们都知道大模型是有上下文长度限制的,过长的上下文内容会显著的降低大模型的效果。在 RAG 中尤为明显,为了让 RAG 能够“记住”和“理解”知识,研究者们提出了一些非常有意思的解决方案。

FastRAG 制定了一个“两步走”的策略,先用简单的关键词匹配快速划定范围,再用更复杂的语义分析找出最相关的内容,就像你在找一本书,先看书架的分类标签找到大致区域,再根据书名和目录找到具体的那本。这不就是传统搜索引擎的召回-粗排-精排的逻辑嘛。

可能 AssistantRAG 的作者出发点是想借鉴 Adapter 的思想,提出了一个很类似的设计:既然一个大模型的记忆能力有限,那么给主模型配备一个“专业秘书”模型。

秘书模型负责记忆管理和知识管理,它会记录历史问答信息,评估这些记忆对当前问题的帮助程度;还会将复杂问题分解成简单的子问题,针对每个子问题检索外部知识库,主模型负责生成最终的输出。这种方法的优势在于灵活性强,在不同的场景,通过更换秘书模型达到快速适配的目的。

MemoryRAG引入了一个“记忆模块”,就像是一个经验丰富的图书管理员,不仅懂得找书,还能理解读者的潜在需求。就像是你要找一本关于爱情主题的书籍的时候,可能书名根本不包括爱情。

MemoryRAG 采用了双重架构,一个负责处理长文本形成整体印象,另一个负责最终的回答生成。这种设计特别适合处理需要全局理解的复杂查询,比如分析文学作品中的人物关系、总结长篇报告等任务。

为了更好的利用外部的知识,RuAG 通过规则增强的方式来提升模型的理解能力。比如在天气预测场景中,与其让模型记住大量天气数据,不如教会它理解“如果温度超过 30 度且湿度低于 50%,那么天气晴朗”这样的规则。这种方法更容易理解和记忆,计算成本也较低。

随着 RAG 应用场景的不断增多,我们可能会遇到各种各样的数据,网页、PDF、文本、时序、音频、视频等等,每种数据类型都带来了独特的挑战。

在网页数据处理方面,HtmlRAG 提供了一个很巧妙的解决方案。它不是简单地把网页转换成纯文本,而是尝试保留那些传达重要含义的 HTML 标签。它首先会清理掉网页中的广告代码、样式表等“干扰信息”,但会保留那些传达重要含义的 HTML 标签。

比如说,“

Windows 安装教程

”这样的标签就会被保留,因为它告诉我们这是一个重要的标题。相比纯文本的方式,基于这样的结构化信息, HtmlRAG 能够更加高效的利用网页信息。

时间序列预测是个老生常谈的问题,比如预测明天的天气、股票走势、电力消耗等。传统方法往往把这些预测看作是独立的任务。但想想看,如果我们能找到历史上相似的情况作为参考,预测效果会不会更好呢?

举个简单的例子:假设你在预测某个城市明天的温度。如果你能找到历史上天气条件非常相似的那几天,看看那之后温度是怎么变化的,这样的预测显然会更准确。

这就是论文提出检索增强预测(RAF)的核心思想。它会先在历史数据中找到类似的模式片段,看看那个历史数据之后模式是怎么变化的,再将这些历史经验作为预测的参考。

除了文本之外,有没有想过,RAG 的思想也是可以应用到视频理解场景的,但你知道现在的大语言模型处理长视频时会遇到什么问题吗?最主要的就是“记不住” - 上下文窗口的限制让它们难以处理长视频。

有的团队试图通过微调来扩展模型的处理能力,有的则尝试使用更大的模型。但这些方法要么需要大量训练数据,要么成本太高。

VideoRAG 提出了一个很独特的方法。它从不同角度来理解视频:

从多个维度去理解视频确实能够得到更好的效果,但不同信息之间的对齐可能是一个需要考虑的问题。

RAG 技术在各个垂直领域都展现出了强大的应用潜力,研究者们针对不同领域的特点,提出了一系列创新性的解决方案。

我们知道,在医疗领域,精确和可靠的诊断信息处理至关重要。LabRAG 模仿了医生看片的过程,先识别关键的医学发现,再基于这些发现写报告。PathRAG 专门针对病理切片图像进行了优化,它结合了关键区域识别和大语言模型,在准确率上提高了将近 10 个百分点。

MMedRAG解决了医疗视觉语言模型在生成回答时经常产生幻觉的问题,它引入了领域感知的检索机制、自适应的上下文选择方法和基于 RAG 的偏好微调策略,显著提高了生成内容的原创性和可靠性。

在材料科学领域,G-RAG 提供了一个非常创新的解决方案。它将图数据库整合到检索过程中,通过实体提取与关联、智能文档解析、图谱增强检索等技术,在准确性评分上远高于传统 RAG 系统。这种提升在材料科学这样需要精确信息的领域特别重要。

RAGDiffusion 为时尚电商领域提供了一个实用的解决方案。它像一个经验丰富的摄影师,通过分析输入的服装照片,在标准服装图片数据库中寻找相似的参考样本,再采用多层次的生成对齐策略,确保生成图片的高质量。

比较让人意外的是,这个系统的泛化性也非常的好,通过简单更新检索数据库,就能够处理全新的服装款式,这种灵活性在快速变化的时尚行业特别重要。

金融分析师每天要阅读大量的财报、公告、研究报告,而且时效性要求特别高。针对这种情况,研究者们开发了 MultiReranker 系统。它的工作方式如下:

首先,它会对用户的问题进行多维度的拆解和改写,比如当你问“Q3 的 ROE 是多少”时,系统会先理解:

然后,它采用了一个“多级筛选”的策略,就像是组建了一个金融分析师团队:

通过多级的检索机制实现对信息对高效利用。特别是,当输入文本太长时,系统会把文档分成两半分别处理,然后再把生成的答案合并起来,既保证了准确性,又提高了效率。

RAG 的双刃剑

没有绝对安全的系统,也没有绝对安全的技术。

随着 RAG 技术在医疗、金融、法律等敏感领域的广泛应用,安全性问题日益凸显。RAG-Thief 的研究让我们清晰地看到了当前 RAG 系统中存在的安全隐患。

很多人可能会觉得疑惑:RAG 系统不是只会返回相关信息吗,怎么会有安全问题呢?但研究者通过巧妙设计的实验揭示了其中的风险。

想象一下,如果一家医院使用 RAG 系统来回答医疗咨询,当有人问“感冒有什么症状”时,系统会正常地返回一般性的医学知识。

但如果有人用特殊的方式提问,比如巧妙地设计问题来套取原始病例信息,系统可能就会不经意间泄露病人的隐私数据。论文发现,在没有特殊防护措施的情况下,攻击者能够提取出超过 70% 的知识库内容。

针对这些问题,也有一些可以探索的措施。例如,在系统层面,需要建立严格的访问控制机制,对检索内容进行脱敏处理,并建立完善的安全审计系统。在算法层面,可以引入噪声扰动和差分隐私技术,降低信息泄露的风险。在日常运营中,定期的安全评估和及时的漏洞修复也是不可或缺的。

最后,来一个小小的总结吧。RAG 的范式是简单可理解的,但真正落地实践的过程中,会有许许多多的问题和痛点。上面提到的 RAG 方法或框架,也只是给出了优化探索的方向,真正在自己的场景中发挥 RAG 的效果,还是有一段路需要摸索。

在实际中应用 RAG 的时候,可以进行综合的考虑,效果不佳的情况下可以尝试进行各种组合,在效果不达标的情况下,不要过度的考虑性能,毕竟,抛开效果谈性能也是耍流氓!

阅读报告全文,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所:2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成:十年回顾

《以人为中心的大型语言模型(LLM)研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来?世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学 、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

Deepmind:AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所:2024 技术趋势报告 - 人工智能篇

国际电联:迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织:2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等,AI 智能体:探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学:AIGC 发展研究 3.0 发布版 b 版

OpenAI:2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报 从复杂系统角度评估人工智能风险

复旦大学 大模型 AI 代理的兴起和潜力:综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告:《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会 德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德 全球灾难风险评估

斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频

华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)

CASA:2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS:2024 光伏应用趋势报告(英文版)

ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告(2024 - 2029 年)》

《军事自主系统:未来之路》美空军

空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

Artificial Intelligence Review:人工智能与物理学相遇的综述

麦肯锡:全球难题,应对能源转型的现实问题

欧米伽理论,智能科学视野下的万物理论新探索(研究论文)

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights:未来变革者:2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)

OpenAI o1 评估:AGI 的机遇和挑战(280 页)

世界知识产权组织:2024 年全球创新指数

美国白宫:国家近地天体防御策略与行动计划

上下滑动查看更多

来源:人工智能学家

相关推荐