图解AI三大核心技术：RAG、大模型、智能体

摘要：核心结构：基于自注意力机制（Self-Attention），并行处理序列数据，解决长距离依赖问题。关键组件：多头注意力（Multi-Head Attention）、前馈网络（FFN）、层归一化（LayerNorm）和残差连接。优势：高效并行训练，适合大规模预训

本文约3000字，建议阅读6分钟

本文介绍了 Transformer 与 MoE、5 种微调技术、RAG 演进、智能体模式及 KV 缓存等大模型关键技术。

核心结构：基于自注意力机制（Self-Attention），并行处理序列数据，解决长距离依赖问题。关键组件：多头注意力（Multi-Head Attention）、前馈网络（FFN）、层归一化（LayerNorm）和残差连接。优势：高效并行训练，适合大规模预训练（如GPT、BERT）。核心思想：将模型拆分为多个专家子网络（如FFN），每层动态激活部分专家（通过门控机制），显著扩展模型规模而不增加计算量。典型应用：Google的Switch Transformer、Meta的FairSeq-MoE。优势：计算高效（稀疏激活），支持万亿参数级模型。

Transformer提供基础架构，MoE通过稀疏化计算扩展模型规模，二者结合推动大模型发展（如GPT-4、Mixtral）。

核心思想：冻结预训练模型权重，插入低秩矩阵（，秩）微调，减少参数量。优势：显存占用低，适配多任务。改进点：固定LoRA的矩阵（随机初始化不更新），仅训练矩阵，进一步减少计算开销。适用场景：资源极度受限时保持性能。3. VeRA（Vector-based Random Adaptation）核心思想：所有LoRA层共享同一对随机初始化低秩矩阵，仅学习层特定的缩放向量（逐层调整幅度）。优势：参数效率极高（如千倍减少），适合边缘设备。改进点：在LoRA基础上，将预训练权重的增量也纳入低秩约束，即微调。优势：平衡参数更新与原始权重保护。核心思想：对LoRA的矩阵AA和BB采用不对称学习率（如），缓解梯度失衡问题。效果：提升收敛速度与微调稳定性。技术参数效率计算开销核心改进方向LoRA中低基础低秩适配LoRA-FA高极低冻结AA矩阵VeRA极高极低共享矩阵+缩放向量Delta-LoRA中中低秩增量+权重更新LoRA+中低非对称学习率优化

应用场景：LoRA通用性强；VeRA适合超轻量化；Delta-LoRA和LoRA+侧重性能优化。

检索（Retrieval）：从固定知识库中检索与输入相关的文档片段（如BM25/向量检索）。生成（Generation）：将检索结果拼接为上下文，输入大模型生成回答。静态处理：检索与生成分离，无反馈循环。局限性：检索结果质量直接限制生成效果；无法动态优化检索策略；多跳推理能力弱（需人工设计分步查询）。

将RAG流程赋予自主决策能力，通过智能体（Agent）动态管理检索与生成。

关键改进：动态检索：基于生成内容的反馈调整检索策略（如改写查询、多轮检索）；支持复杂查询的多跳推理（自动分解子问题并迭代检索）。任务感知：根据任务类型（问答、摘要等）选择检索工具或生成策略；可调用外部API或工具补充知识（如计算、实时数据）。自我验证：对生成结果进行事实性检查（如二次检索验证）、逻辑一致性评估。对比总结维度传统RAGAgentic RAG检索方式单次、静态多轮、动态优化推理能力单跳，依赖人工设计多跳，自主分解任务上下文管理固定拼接动态筛选与精炼错误处理无自检机制结果验证与修正适用场景简单问答、文档摘要复杂推理、实时交互、工具调用

演进本质：Agentic RAG将RAG从“管道流程”升级为“自主决策系统”，更贴近人类问题解决模式。

5 种经典的智能体设计模式

核心思想：智能体通过自我评估与迭代修正优化输出。

流程：生成结果 → 分析错误/不足 → 调整策略重新生成。

核心思想：智能体调用外部工具（如API、计算器、搜索引擎）扩展能力边界。动态选择工具并解析工具返回结果。

核心思想：结合推理（Reasoning）与行动（Action）的交互式决策。

流程：

Reason：分析当前状态（如“需要查询天气”）；Act：执行动作（如调用天气API）；循环直至解决问题。

核心思想：智能体预先制定分步计划再执行，而非即时反应。长期目标分解为子任务，动态调整计划。

核心思想：多个智能体通过协作/竞争完成复杂任务。角色分工（如管理者、执行者）、通信机制（如投票、辩论）。

5大文本分块策略

核心思想：基于文本语义边界分块（如段落、话题转折点）。实现：规则：按标点（句号、段落符）分割；模型：用嵌入相似度检测语义边界（如 Sentence-BERT）。优点：保留语义完整性。缺点：计算成本较高。场景：精细化问答、摘要生成。核心思想：分层分割文本（如先按段落→再按句子）。优点：平衡长度与语义，适配多级处理需求。缺点：需设计分层规则。场景：长文档处理（论文、法律文本）。4. Document Structure-based Chunking（基于文档结构的分块）核心思想：利用文档固有结构（标题、章节、表格）分块。实现：解析 Markdown/HTML/PDF 的标签结构。优点：精准匹配人类阅读逻辑。缺点：依赖文档格式规范性。场景：技术手册、结构化报告解析。核心思想：用 LLM（如 GPT-4）动态决定分块策略。方法：

等级核心能力关键特征典型场景Basic Responder单轮响应无记忆，固定规则生成简单问答、自动回复Router Pattern任务分类与分发意图识别+预定义路由多技能助手（如小爱同学）Tool Calling调用外部工具动态API调用+结果解析实时计算、数据查询Multi-agent多智能体协作/竞争角色分工+通信协议仿真系统、复杂任务分解Autonomous长期目标驱动+自我优化规划+反思+环境适应自动驾驶、AutoGPT

传统RAG（Retrieval-Augmented Generation）和HyDE（Hypothetical Document Embeddings）都是检索增强生成（RAG）技术的变体，但它们在检索策略和性能优化上有显著差异。以下是两者的对比：

维度传统RAGHyDE检索方式直接对用户查询（Query）进行向量检索先让LLM生成假设答案（Hypothetical Answer），再检索相似文档匹配逻辑Query-to-Document 相似度匹配Answer-to-Document 相似度匹配生成阶段直接使用检索到的文档生成答案结合假设答案+检索文档生成最终答案

关键区别：

传统RAG依赖查询与文档的语义匹配，但用户问题（如“什么是ML？”）可能与答案（如“机器学习是一种方法”）表述不同，导致检索失败。HyDE通过生成假设答案（如“ML是让计算机学习数据的方法”），使嵌入更接近真实答案的语义，从而提高检索精度。指标传统RAGHyDE检索精度较低（依赖查询表述）显著提升（如ARAGOG实验显示优于基线）答案质量可能因检索失败而错误更准确（利用假设答案引导检索）计算成本低（仅需一次检索）较高（需LLM生成假设答案）

实验数据：

OpenAI测试显示，传统RAG准确率仅45%，HyDE可提升至65%。ARAGOG研究表明，HyDE与LLM重排序结合后，检索精度显著优于朴素RAG。场景传统RAGHyDE简单问答适用（如事实型问题）适用，但可能过度复杂复杂查询易失败（表述差异大）更优（如多跳推理）实时性要求更高效延迟较高（需生成步骤）

维度RAG（检索增强生成）Graph RAG（图增强检索生成）知识结构基于扁平文本（向量检索）基于知识图谱（图结构检索）检索方式语义相似度匹配（如BM25/Embedding）图遍历（如节点关系推理、路径查询）优势简单高效，适合事实型问答擅长多跳推理、关系推理缺点难以处理复杂逻辑关系依赖高质量知识图谱，构建成本高适用场景问答、文档摘要复杂推理（如因果分析、事件链推导）

核心区别：

KV Cache是Transformer推理时的关键优化技术，通过缓存注意力层计算过的键值矩阵（Key-Value），避免对历史token的重复计算，将生成过程的计算复杂度从二次方O(n²)降至线性（O(n)），显著提升大模型生成速度（3-5倍加速）。它以显存占用为代价（需存储每层的KV矩阵），成为所有主流推理框架（如vLLM、TGI）的核心优化手段，支撑了长文本生成和实时交互的高效实现。

来源：数据派THU一点号

标签：模型智能体 rag llm hyde

本文地址：http://news.43b.com.cn/a/1089242.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!