【RAG入门必看】什么是RAG？如何搭建、调优、评估效果？

摘要：在大模型时代，RAG（Retrieval-Augmented Generation，检索增强生成）已成为提升模型知识深度与事实准确性的关键方案。它不仅让模型“少胡说八道”，还能真正做到“有据可依”。本文将带你系统梳理 RAG 的核心逻辑、优化策略与评估方法

在大模型时代，RAG（Retrieval-Augmented Generation，检索增强生成） 已成为提升模型知识深度与事实准确性的关键方案。它不仅让模型“少胡说八道”，还能真正做到“有据可依”。本文将带你系统梳理 RAG 的核心逻辑、优化策略与评估方法，从召回到生成，一步步构建高质量的智能知识问答体系。

RAG（Retrieval-Augmented Generation） 与大语言模型（LLM）的底层逻辑一致：

将文本语义化后转化为 向量（embedding），通过 向量间相似度（通常为余弦相似度） 判断语义关联。

系统通过检索最相关的外部知识，再由大模型基于这些知识生成最终回答。

指标含义召回率 Recall@K检索到的相关文档数 / 实际相关文档数平均倒排率 MRR相关文档的平均排名倒数NDCG（归一化折损累积增益）综合考虑文档相关性与排序位置Precision@K前 K 条结果中相关文档比例Coverage / Diversity检索结果的主题多样性

✅ 优秀的 RAG 模型在 Recall@K 和 MRR 上表现较高，同时保持检索结果的多样性。

指标含义Rouge-L / BLEU文本与参考答案的 n-gram 重叠度BERTScore / Embedding Similarity基于语义向量的文本相似度Factuality检查生成内容是否符合检索事实Diversity语言自然度与生成多样性Hallucination Rate模型幻觉（编造信息）的比例

人工标注者通常从以下维度打分：

• 准确性（Correctness）• 连贯性（Coherence）• 完整性（Completeness）• 相关性（Relevance）• 流畅性（Fluency）

常用 Likert 5分或7分制，与自动指标结合综合加权。

优化目标：

检索更准：召回覆盖率高、排序准确上下文更稳：文档干净、冗余少生成更真：幻觉率低、语义连贯

评估目标：

通过多维指标量化 “召回—生成—事实一致性” 的全链路质量，结合 自动评估 + 人类评估，实现持续闭环优化。

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：