大模型时代必会技能：RAG优化15个实战技巧分享

摘要：RAG Chunking TechniquesRetrieval-Augmented Generation（RAG）很大程度上取决于你怎么分块数据。想让LLM检索到真正有意义的上下文？你得用心设计数据的分块方式。

RAG Chunking Techniques Retrieval-Augmented Generation（RAG）很大程度上取决于你怎么分块数据。想让LLM检索到真正有意义的上下文？你得用心设计数据的分块方式。

下面是15种关键的分块策略，详细解释，每种都带一个实际的例子和实用的拆分方法。

是什么：每遇到新行就拆分。

什么时候用：

聊天记录、访谈记录，或者每行都表达一个完整意思的数据。适合：客服聊天、访谈问答、消息应用。

示例输入：

Alice: 嘿，Bob，今天下午3点有空通话吗？ Bob: 当然，Alice。你想聊项目更新吗？ Alice: 对，还要讨论客户会议。 Bob: 没问题！3点见。

分块输出：

CHUNK1: Alice: 嘿，Bob，今天下午3点有空通话吗？CHUNK2: Bob: 当然，Alice。你想聊项目更新吗？CHUNK3: Alice: 对，还要讨论客户会议。CHUNK4: Bob: 没问题！3点见。

是什么：不管内容含义，按固定字数或字符数拆分。

杂乱无章、没天然边界的文本。适合：OCR扫描的文本、爬取的网页原始内容、老旧扫描文档。

示例输入：

Python是一种高级、解释型编程语言。它的简单语法和动态类型使其在快速应用开发和脚本编写中很受欢迎。Python支持多种编程范式，包括结构化、面向对象和函数式编程。它广泛用于Web开发、数据分析、AI、科学计算等领域。

假设固定大小 = 20个单词。

分块输出：

CHUNK1: Python是一种高级、解释型编程语言。它的简单语法和动态类型使其在快速应用开发CHUNK2: 和脚本编写中很受欢迎。Python支持多种编程范式，包括结构化、面向对象和函数式编程。CHUNK3: 它广泛用于Web开发、数据分析、AI、科学计算等领域。

是什么：按固定字数或token分块，但让块之间有重叠，保留上下文。

句子或概念跨越块边界时。适合：叙事文本、法律文档、技术写作。

示例输入：

机器学习模型需要大量数据集来训练。数据的质量和数量显著影响模型性能。数据预处理包括清理和转换原始数据为可用输入。

假设窗口大小 = 15个单词，重叠 = 5个单词。

分块输出：

CHUNK1: 机器学习模型需要大量数据集来训练。数据的质量和数量CHUNK2: 质量和数量显著影响模型性能。数据预处理包括清理和转换CHUNK3: 转换原始数据为可用输入。

是什么：每个句子作为一个块。

什么时候用：

干净、编辑良好的文章。适合：文章、文档、教科书。

示例输入：

深度学习已经改变了许多技术领域。神经网络现在能在图像识别上超越人类。训练这些模型需要大量计算资源。

分块输出：

CHUNK1: 深度学习已经改变了许多技术领域。CHUNK2: 神经网络现在能在图像识别上超越人类。CHUNK3: 训练这些模型需要大量计算资源。

为什么：

每个块是一个聚焦的观点。便于LLM重新组合上下文。风险：有些句子可能太短或缺上下文，建议有时把2-3句合并成一个块。

是什么：每个段落作为一个块。

格式良好的文档、博客、文章。每个段落覆盖一个单一观点或主题。

示例输入：

数据科学结合了领域专业知识、编程技能以及数学和统计知识，从数据中提取有意义的洞察。它是一个跨学科领域，使用计算机科学、统计学、机器学习和数据可视化技术来解决复杂问题。数据科学家处理大型数据集，以识别趋势、进行预测并推动战略决策。

分块输出：

CHUNK1: 数据科学结合了领域专业知识、编程技能以及数学和统计知识，从数据中提取有意义的洞察。CHUNK2: 它是一个跨学科领域，使用计算机科学、统计学、机器学习和数据可视化技术来解决复杂问题。CHUNK3: 数据科学家处理大型数据集，以识别趋势、进行预测并推动战略决策。

是什么：分页文档中的每一页作为一个块。

PDF、书籍、扫描文档、法律合同。需要按页码引用时。

示例输入：

第1页：第1节：RAG简介 Retrieval-Augmented Generation（RAG）系统结合了LLM和信息检索。RAG提升了事实准确性，扩展了模型超越训练数据的知识。第2页：第2节：架构主要组件是retriever（检索相关文档）和generator（根据检索到的上下文生成答案）。

分块输出：

CHUNK1 (第1页): 第1节：RAG简介 Retrieval-Augmented Generation（RAG）系统结合了LLM和信息检索。RAG提升了事实准确性，扩展了模型超越训练数据的知识。CHUNK2 (第2页): 第2节：架构主要组件是retriever（检索相关文档）和generator（根据检索到的上下文生成答案）。

是什么：按标题（H1/H2等，或“## 章节标题”）拆分。

有清晰逻辑章节的文档。技术文档、书籍、白皮书。

示例输入：

# 简介Retrieval-Augmented Generation（RAG）允许语言模型使用外部信息来改善回答。# RAG如何工作RAG首先检索相关文档，然后基于用户查询和上下文生成回答。# 优点RAG提升了事实准确性，并支持使用私有或更新的数据。

分块输出：

CHUNK1: # 简介 Retrieval-Augmented Generation（RAG）允许语言模型使用外部信息来改善回答。CHUNK2: # RAG如何工作 RAG首先检索相关文档，然后基于用户查询和上下文生成回答。CHUNK3: # 优点 RAG提升了事实准确性，并支持使用私有或更新的数据。

是什么：每次遇到特定关键词（比如“步骤”、“诊断”、“注意”）就拆分。

表格、日志、带重复关键词的技术说明。适合：医疗记录、步骤指南。

示例输入：

诊断：急性支气管炎。症状：持续咳嗽、轻度发烧、胸部不适。处方：阿莫西林500毫克，每日三次，连续7天。注意：建议患者休息和补充水分。

关键词：“注意：”

分块输出：

CHUNK1: 诊断：急性支气管炎。症状：持续咳嗽、轻度发烧、胸部不适。处方：阿莫西林500毫克，每日三次，连续7天。CHUNK2: 注意：建议患者休息和补充水分。

是什么：用Named Entity Recognition（NER）将句子或段落按实体（人、组织、产品等）分组。

什么时候用：

新闻、法律文档、产品评论——实体引用很重要的场景。

示例输入：

苹果在年度活动中发布了新款iPhone型号。Tim Cook展示了聚焦于相机改进和电池续航的新功能。与此同时，三星据传下个月将推出竞争设备。

NER识别：“Apple”、“Tim Cook”、“Samsung”

分块输出：

CHUNK1: 苹果在年度活动中发布了新款iPhone型号。Tim Cook展示了聚焦于相机改进和电池续航的新功能。CHUNK2: 与此同时，三星据传下个月将推出竞争设备。

是什么：按token数（模型的处理单位）而非单纯字数拆分。

什么时候用：

LLM上下文大小有限时（比如1024、2048个token）。

示例输入：

生成式AI的快速增长推动了聊天机器人、文档摘要和数据提取应用的激增。随着模型越来越大，它们需要更多内存和计算，但也为跨行业的自动化开辟了新可能。组织正在探索结合传统算法和大型语言模型的混合系统，以提升性能和成本效率。

假设每个块 = 25个token（模拟：约10个单词=10个token，避免断句）。

分块输出：

CHUNK1: 生成式AI的快速增长推动了聊天机器人、文档摘要和数据提取应用的激增。CHUNK2: 随着模型越来越大，它们需要更多内存和计算，但也为跨行业的自动化开辟了新可能。CHUNK3: 组织正在探索结合传统算法和大型语言模型的混合系统，以提升性能和成本效率。

是什么：将每个表格提取为单独的块（可选按行或整个表格）。

什么时候用：

发票、财务报告、科学论文——任何带表格的文档。

示例输入：

表格1：季度收入 | 季度 | 收入（美元） | |---------|| | 2024年Q1 | $1,000,000 | | 2024年Q2 | $1,200,000 | 公司经历了稳定增长，Q2增长尤为明显。

分块输出：

CHUNK1: 表格1：季度收入CHUNK2: 公司经历了稳定增长，Q2增长尤为明显。

是什么：先按大块（段落或章节）拆分，超大的块再进一步拆（按句子、单词），直到每个块符合大小要求。

什么时候用：

长篇、冗长的访谈记录、采访或段落大小不均的文档。

示例输入：

访谈记录： John：一开始我们主要关注用户体验。我们跑了好几次调查，收集反馈，快速迭代。后来，随着产品成熟，我们开始解决扩展性和基础设施问题。这阶段更具挑战，因为我们需要在扩展时保持系统正常运行。

假设块大小 = 最大20个单词。

步骤1：按段落拆分

段落1：“John：一开始我们主要关注用户体验。我们跑了好几次调查，收集反馈，快速迭代。”段落2：“后来，随着产品成熟，我们开始解决扩展性和基础设施问题。这阶段更具挑战，因为我们需要在扩展时保持系统正常运行。”

步骤2：段落仍超大，拆成句子

分块输出：

CHUNK1: John：一开始我们主要关注用户体验。CHUNK2: 我们跑了好几次调查，收集反馈，快速迭代。CHUNK3: 后来，随着产品成熟，我们开始解决扩展性和基础设施问题。CHUNK4: 这阶段更具挑战，因为我们需要在扩展时保持系统正常运行。

是什么：用embeddings或AI将讨论同一主题的句子或段落分组。

什么时候用：

混合主题的数据（比如客服工单、问答文档、FAQ）。

示例输入：

问：如何重置密码？答：前往登录页面，点击“忘记密码”。问：如何更改邮箱地址？答：访问你的个人资料设置，输入新邮箱。问：退款政策是什么？答：购买后30天内可退款。

假设语义模型检测到“账户管理”和“支付”两个主题。

CHUNK1: 问：如何重置密码？答：前往登录页面，点击“忘记密码”。问：如何更改邮箱地址？答：访问你的个人资料设置，输入新邮箱。CHUNK2: 问：退款政策是什么？答：购买后30天内可退款。

是什么：多级分块——按章节、然后按小节、然后按段落等。

什么时候用：

大型、结构良好的文本（书籍、技术文档、法律条文）。

示例输入：

第1章：简介 1.1节：什么是RAG？ Retrieval-Augmented Generation（RAG）结合了LLM和外部数据源，提供最新答案。 1.2节：为什么用RAG？ RAG扩展了模型能力，提升事实准确性，支持私有或动态信息。

分块输出：

CHUNK1: 第1章：简介CHUNK2: 1.1节：什么是RAG？ Retrieval-Augmented Generation（RAG）结合了LLM和外部数据源，提供最新答案。CHUNK3: 1.2节：为什么用RAG？ RAG扩展了模型能力，提升事实准确性，支持私有或动态信息。

是什么：对表格、列表、图片、纯文本使用不同的分块策略。

什么时候用：

包含混合内容的文档：PDF、研究论文、报告。

示例输入：

摘要：本研究探讨了RAG管道的分块策略。结果显示分块方法影响答案质量。表格1：测试结果 | 方法 | 准确率 | ||--------| | 按句子分块 | 85% | | 滑动窗口分块 | 90% | 图1：管道图（此处未显示图片）

分块输出：

CHUNK1: 摘要：本研究探讨了RAG管道的分块策略。结果显示分块方法影响答案质量。CHUNK2: 表格1：测试结果CHUNK3: 图1：管道图（此处未显示图片）。

为什么：

确保检索不会混淆表格、文本和图片。支持针对性检索，比如“给我看结果表格”或“获取摘要”。没有一种分块策略适合所有数据。根据你的文档格式、使用场景和用户问题来选择分块方法。在真实数据上测试，始终检查LLM输出是否存在上下文漂移或“胡编乱造”。

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

如果你真的想学习大模型，请不要去网上找那些零零碎碎的教程，真的很难学懂！你可以根据我这个学习路线和系统资料，制定一套学习计划，只要你肯花时间沉下心去学习，它们一定能帮到你！

来源：玩透AI大模型一点号

标签：模型 rag llm bob generation

本文地址：http://news.43b.com.cn/a/687563.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐