什么是GraphRAG?从传统RAG到GraphRAG技术全景解析

B站影视 内地电影 2025-10-28 16:13 1

摘要:随着企业对“可控、可解释、可扩展”的 AI 能力需求日益增强,GraphRAG 正在成为下一代 RAG 系统的关键演进方向。本文深度解析其技术演化路径与应用价值,揭示图谱增强生成在智能问答、企业知识管理等场景中的突破性意义。

随着企业对“可控、可解释、可扩展”的 AI 能力需求日益增强,GraphRAG 正在成为下一代 RAG 系统的关键演进方向。本文深度解析其技术演化路径与应用价值,揭示图谱增强生成在智能问答、企业知识管理等场景中的突破性意义。

本文旨在通过深入剖析GraphRAG(图检索增强生成)技术,阐明其如何通过引入知识图谱(KG)解决传统RAG在处理复杂查询和多跳推理方面的局限性。将会详细介绍GraphRAG的定义、工作流、对传统RAG的改进。同时,本文也会介绍GraphRAG在工程化落地中面临的挑战、存储策略,介绍更轻量化的LightRAG解决方案以及G-reasoner等新技术的发展现状现。最后,本文通过分析一些企业级别的GraphRAG应用案例,给大家展示GraphRAG在多轮对话、临床试验、代码风险评估等领域的实际应用价值。

一、核心技术概念

为了帮助您更好地理解文章后续内容,我首先对几个核心技术名词进行通俗化解释:

第一部分 传统RAG技术洞察

1.1 传统RAG的定义与工作流

传统RAG是一种将检索能力与生成能力相结合的技术,旨在通过引入外部知识来增强LLM的输出质量,解决其知识滞后和“幻觉”问题 [1]。

其典型工作流包括三个主要阶段:

索引阶段:将原始文档分割成较小的文本块(Chunk),利用Embedding模型将文本块转换为向量,并存储到向量数据库中。检索阶段:用户提问后,将问题也转换为向量,在向量数据库中进行语义相似性搜索,找出与问题向量最相似的Top-K个文本块作为上下文生成阶段:将用户问题和检索到的上下文一起送给LLM,LLM基于这些“参考资料”生成最终答案。

1.2 传统RAG面临的挑战

尽管传统RAG有效提升了LLM的准确性,但其依赖语义相似性的检索机制在处理复杂任务时仍面临显著挑战 [1, 3]:

多跳推理困难

传统RAG难以处理需要跨越多个文档片段才能得出结论的多跳推理问题。向量搜索倾向于返回孤立的、局部的文本块,无法建立完整的逻辑链条。一个典型的例子是回答“斐迪南大公遇刺为何会引发第一次世界大战?”。

传统RAG的向量搜索首先会返回一个孤立的文本块,指出“奥匈帝国皇储在萨拉热窝被刺杀”。再次搜索,可能找到另一个片段,说明“德国支持奥匈帝国向塞尔维亚发出最后通牒”。它还会找到关于“欧洲当时存在同盟国与协约国两大阵营”的信息。

然而,传统RAG只能机械地返回这些局部的、逻辑断裂的信息块。它无法像人类一样,自主地将这些点串联起来,推理出“刺杀 → 奥匈帝国在德国支持下报复塞尔维亚 → 俄国作为塞尔维亚盟友被卷入 → 德国对俄法宣战 → 英国加入 → 世界大战爆发”这个完整的因果链条。

核心问题在于:向量搜索擅长查找相似片段,但无法在片段间建立必要的逻辑桥梁,导致无法完成需要多步推理的复杂问答。

关系信息缺失:

将文档切分成独立的文本块,丢失了文本块之间、实体之间的隐式关系。例如,它能找到提及“张三”和“李四”的段落,但无法直接知道“张三是李四的上级”这一关系

上下文冗余与“大海捞针”:

检索到的文本块可能包含大量无关信息,导致提供给LLM的上下文过长。这不仅浪费LLM的Token资源,还可能触发LLM的“大海捞针”(Needle in a Haystack)效应,即模型在长而冗余的上下文中忽略关键信息 [1]。

1.3 利用知识图谱增强RAG

为了应对上述挑战,**知识图谱(KG)**被引入RAG流程,形成了GraphRAG的核心思想。KG通过以下方式增强RAG:

结构化知识:KG将非结构化的文本知识转化为实体-关系-实体(三元组)的结构化形式,清晰地描绘了知识间的关联,使得知识的表示更加精确和可计算[3]。支持多跳推理:在检索阶段,可以利用KG的图遍历能力,沿着关系链条进行路径搜索,一步步找到与问题相关的完整知识路径,从而实现准确的多跳推理[1]。提供精确上下文:检索结果不再是模糊的文本块,而是精确的子图(包含实体和关系),这为LLM提供了更高质量、更少冗余的上下文信息[3]。

1.4 增强RAG的其他图结构

除了核心的知识图谱外,其他图结构和算法也在GraphRAG中发挥关键作用,特别是在微软的产品-GraphRAG框架中 [1]:

图社区(GraphCommunities):在GraphRAG的索引阶段,通过图聚类算法(如Leiden算法)将知识图谱中的实体划分成紧密相关的社区。每个社区可以被视为一个主题或概念的集合。社区摘要(CommunitySummaries):为每个图社区生成一个高级别的摘要。在回答涉及全局性、总结性的问题时,LLM可以直接检索和利用这些社区摘要,而不是遍历整个图谱,从而提高效率和答案的全面性。第二部分 Graph RAG技术洞察

2.1 GraphRAG定义

GraphRAG(Graph Retrieval-Augmented Generation,图检索增强生成)是一种先进的RAG范式,它通过知识图谱来组织、检索和增强LLM的知识 [3]。它首先从原始数据中提取实体和关系,构建知识图谱,然后在检索时利用图的结构化特性进行精确的路径或子图检索,最终将结构化的图信息转化为文本上下文供LLM生成答案 [1]。

2.2 GraphRAG对传统RAG的改进

GraphRAG通过引入图结构化知识,对传统RAG进行了本质上的改进,尤其体现在处理复杂查询和提高可解释性方面 [3]:

2.3 GraphRAG的工作流

GraphRAG的工作流可以分为索引查询两大阶段 [1]:

1.索引阶段(构建知识图谱):

知识抽取:使用LLM或专门的抽取模型,从文本单元中识别出实体(节点)和它们之间的关系(边),形成三元组。图谱构建:将抽取出的三元组存储到图数据库中,形成初始知识图谱。社区分析:对图谱进行聚类,发现社区,并为每个社区生成摘要,用于全局性查询。

2.查询阶段(检索与生成):1)查询分析:分析用户问题,确定是全局搜索(需要总结性信息)还是本地搜索(需要特定实体或路径信息)。

2)图检索:

全局搜索:检索相关的社区摘要作为上下文。本地搜索:基于用户问题中的实体,在知识图谱中进行路径遍历子图搜索,找到精确的知识路径。

3)上下文生成:将检索到的结构化图信息(子图、路径、摘要)格式化为文本,作为上下文。

4)LLM生成:LLM结合上下文和用户问题,生成最终的答案。

2.4 知识图谱在GraphRAG中的作用方式

知识图谱在GraphRAG中主要扮演了**“知识中枢”的角色,其核心作用方式是结构化、推理和双重增强**:

知识结构化:将非结构化数据转化为结构化的实体-关系网络,为高效检索打下基础。提供推理能力:通过图遍历算法,实现传统RAG难以完成的多跳推理,发现隐藏的关联。双重检索增强:结合了结构化检索(利用图查询语言进行精确搜索)和语义检索(利用向量相似性搜索图中的实体描述),实现优势互补[3]。第三部分 Graph RAG实践

3.1 GraphRAG的实现挑战

GraphRAG在落地过程中面临的主要挑战集中在知识图谱的构建成本系统的工程化复杂性[3, 6]:

3.2 GraphRAG工程化落地实践

成功的GraphRAG工程化落地需要采取一系列策略来应对挑战 [6]:

混合存储架构:采用图数据库+向量数据库的混合存储方案,充分利用图数据库的结构化查询能力和向量数据库的语义搜索能力,实现混合检索知识抽取微调:针对特定领域的知识抽取任务,使用少量标注数据对LLM进行指令微调(InstructionTuning),以提高三元组抽取的准确性和召回率。图社区与摘要:在索引阶段预先计算图社区并生成社区摘要,以应对全局性、总结性的查询,避免每次都进行大规模图遍历。Agentic架构:采用Agentic架构,将图检索作为Agent的工具,实现复杂任务的分解和迭代推理,提高问答的准确性和可解释性。

3.3 GraphRAG的存储策略

GraphRAG的存储策略通常采用混合存储,以兼顾结构化和非结构化数据的优势 [6]:

3.4 更轻量化的解决方案-LightRAG

LightRAG(Simple and Fast Retrieval-Augmented Generation)是未来RAG发展的一个重要方向,它旨在简化和加速RAG流程,同时保持高性能 [7]。

LightRAG代表了将GraphRAG的优势(结构化、推理能力)与传统RAG的简洁性(快速、低成本)相结合的趋势。其主要特点包括:

双层检索系统:强调低层(如文档块)和高层(如知识图谱)知识的结合,实现更全面的信息检索[7]。简化图结构:可能采用更轻量级的图结构或图算法,以降低GraphRAG复杂的工程化成本。增量更新:当新数据加入时,LightRAG采用增量更新算法,只更新相关部分,而无需重建整个知识库。

LightRAG的查询响应流程:

当用户提出一个问题时,系统先理解问题在说什么,然后去“知识库”里找答案,再组织成一段清晰自然的回复。

1. 先分析问题,分出两类关键词

系统会分析用户提问的句子,从中提取出两种关键词:

局部关键词:具体的内容,比如“爱因斯坦”、“相对论”这种名词。全局关键词:更偏概念性的词,比如“物理学原理”、“科学贡献”。

2. 两步查找,信息更全面

局部检索:先用具体的关键词在“向量库”里找最相关的小段落或知识点。全局检索:再根据概念性关键词,在知识图谱中沿着关系扩展,找更多相关内容。

3. 组织上下文,生成自然语言回答

把刚才查到的信息拼成一个“上下文背景”,喂给语言模型(LLM)。系统会按照提前设定的“回答模板”来组织内容,确保回答连贯、有逻辑、信息完整。

通过了解和使用LightRAG,您可以构建高效、灵活且易于维护的知识图谱系统,提升信息检索和生成任务的性能,特别是在处理复杂实体关系和动态数据更新的场景中。

3.5 未来展望:增强RAG检索泛化能力的新框架-G-REASONER框架

即使刚才文章中介绍的GraphRAG已经能够在知识的关联性以及检索效率上大大超过传统的RAG,但GraphRAG仍存在一定的局限性,即现有的GraphRAG方法多为专用图结构 + 启发式搜索,难以跨任务、跨领域迁移。

2025年9月29日arXiv的一个论文提出了一个新的框架-G-REASONER框架。

G-REASONER的框架有望被视为解决现有GraphRAG局限性的下一代方案。它旨在真正统一图结构知识与大语言模型(LLM)的推理能力,它提出一个统一框架,将图结构知识与语言模型能力深度融合,核心包括三大模块:

1)统一图结构(QuadGraph):针对现有GraphRAG方法难以跨任务、跨领域迁移的问题,G-REASONER提出了QuadGraph(四层抽象图接口)。

QuadGraph可以将不同来源的图结构(如知识图谱、文档图、层级图)统一为属性层、知识图谱层、文档层、社区层的标准化四层级图。也就是如果你有来自不同图结构的库,都可以通过QuadGraph集成在一起,这打破了图结构的壁垒,使LLM能够处理异构的图知识,大大扩大了知识的检索广度。

2)图基础模型(GFM):

G-REASONER引入了GFM(Graph Foundation Model,图基础模型),这是一个34M参数的GNN(图神经网络)。

GFM具备联合编码(节点文本语义+图拓扑结构)和跨层推理的能力,让LLM获得了“图感”,能够直接在QuadGraph的各层间传递信息,实现更深度的图结构推理。

3)LLM增强推理:

GFM输出每类节点(实体、文档、社区)的相关性得分,框架选取Top-k节点作为上下文,构建提示词输入LLM。

这种方式将图推理的结构化结果作为LLM的增强上下文,显著提升了多跳问答的表现。

G-REASONER的工作模式如下图:

G-REASONER的性能与效率:

G-REASONER在多个知识推理基准上全面领先,并且具有强大的跨图结构泛化能力,G-REASONER 在不微调的情况下,直接适配 HippoRAG、LightRAG、Youtu-GraphRAG 构建的图,性能均优于原配套检索器。

其推理延迟仅0.2秒,远低于Agent-based(智能体)方法(89.4秒),表明它在解决GraphRAG工程化挑战(如查询性能)方面取得了重大进展。

第四部分 GraphRAG案例

GraphRAG已在多个行业和复杂场景中得到应用,以下是企业应用级别的代表性案例:

智能客服:基于GraphRAG的多轮对话实践

应用场景:智能客服/智能外呼系统中的多轮对话

核心痛点:传统RAG在多轮对话中难以处理意图切换上下文连贯性

解决方案:采用CID-GraphRAG(Context-Intent-Driven GraphRAG,上下文意图驱动的GraphRAG)框架。通过构建一个包含意图上下文信息的双层意图图谱,结合意图驱动检索语义检索,确保在复杂的对话流中也能准确理解用户需求并提供连贯的回答 [8]。

临床试验:基于查询的GraphRAG用于临床试验操作

应用场景:临床试验操作知识管理

核心痛点:临床试验数据和协议文档复杂,需要进行复杂的多跳推理事实性检索

解决方案:采用基于查询的GraphRAG。将临床试验协议、药物信息、患者数据等结构化为知识图谱,并利用LLM将研究人员的自然语言问题转化为图查询语句,实现快速、准确的知识检索,用于优化临床试验设计和分析 [9]。

企业知识管理系统:Agentic GraphRAG提高问答准确性

应用场景:企业知识管理和复杂问答系统。

核心痛点:传统问答系统在处理涉及多个知识领域、需要复杂逻辑推理的问题时,准确性难以保证。

解决方案:采用Agentic GraphRAG。引入AI Agent,将GraphRAG作为一个可调用的工具集成到Agent框架中。Agent通过自主规划迭代推理,指导图检索过程,显著提高了复杂问答场景下的准确性可解释性[5, 10]。

阿里巴巴KG²RAG框架

框架名称:KG²RAG(Knowledge Graph Guided RAG,知识图谱引导的RAG)。

核心理念:旨在解决传统RAG在检索时缺乏事实级关系的问题。

框架特点:在文档块(Chunk)与特定的知识图谱(KG)之间建立链接。在检索阶段,不仅检索相似的文本块,还会通过链接获取与这些文本块相关的知识图谱片段(包含事实级关系),从而增强检索结果的多样性连贯性[11]。

代码变更风险评估:代码知识图谱赋能变更风险评估

应用场景:代码变更风险评估(后羿系统)。

核心痛点:在大型软件系统中,一次代码变更可能影响到多个模块、服务和人员,难以全面评估潜在风险。

解决方案:构建代码知识图谱。将代码库中的实体(如类、函数、服务、作者)和它们之间的关系(如调用、继承、依赖)结构化。当有代码变更时,通过图谱查询,可以快速识别出受影响的调用链依赖服务以及相关的负责人,实现了代码变更风险的可视化精确评估[12]。

总结

GraphRAG通过引入知识图谱,解决了传统RAG在多跳推理和关系建模上的局限,实现了从“信息碎片”到“知识网络”的升级。未来,以G-REASONER为代表的统一框架和LightRAG的轻量化趋势,将进一步提升GraphRAG的泛化性、效率和工程化落地能力,使其成为复杂知识场景下LLM增强的关键技术。

参考文献

[1] Zilliz 向量数据库. GraphRAG 详解: 通过知识图谱提升 RAG 系统. https://zilliz.com.cn/blog/graphrag-explained-enhance-rag-with-knowledge-graphs

[2] 微软研究院. From Local to Global: A Graph RAG Approach to Query-Focused Summarization. https://arxiv.org/abs/2404.16130

[3] PuppyGraph. What is GraphRAG ? Everything You Need To Know. https://www.puppygraph.com/blog/graph-rag

[4] 知乎. GraphRAG的设计模式、挑战和改进思路. https://zhuanlan.zhihu.com/p/706303320

[5] BitBang News. BitBang Named in 2025 Gartner® Research for its Agentic GraphRAG Solution Developed for Bonfiglioli. https://bitbang.com/news/collaborations/bitbang-named-in-2025-gartner-research-for-its-agentic-graphrag-solution-developed-for-bonfiglioli/

[6] 沙丘智库. GraphRAG如何真正落地?一文讲透技术路径与7大最佳实践. https://www.shaqiu.cn/article/8JWXVn6nVpdz

[7] Arxiv. LightRAG: Simple and Fast Retrieval-Augmented Generation. https://arxiv.org/abs/2410.05779

[8] CSDN. 大模型入门干货:RAG 不够用?意图+ 语义双检索框架帮你. https://blog.csdn.net/m0_48891301/article/details/152073968

[9] Shaqiu.cn. 突破RAG瓶颈!7个头部企业GraphRAG应用实践. https://www.shaqiu.cn/article/pJgjLmqNL4BO

[10] Gartner Research. Gartner Research for its Agentic GraphRAG Solution. (Indirectly cited via [5])

[11] CSDN. 技术动态| 知识图谱引导的检索增强生成RAG. https://blog.csdn.net/m0_59164520/article/details/146113833

[12] 美团技术团队. 代码变更风险可视化系统建设与实践. https://tech.meituan.com/2023/09/22/construction-and-practice-of-code-change-risk-visualization-system.html

[13] 知乎. 腾讯基于RAG 和Agent 技术的混元大模型业务落地实践. https://zhuanlan.zhihu.com/p/20004003400

图来源:https://arxiv.org/pdf/2509.24276

本文由 @瞳仔设计说 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

来源:人人都是产品经理

相关推荐