让RAG读懂“言外之意”!靠词汇多样性技术,多任务准确率飙升

B站影视 内地电影 2025-09-28 16:22 1

摘要:就拿问“Hattie McDaniel的职业是什么”来说,要是你换个说法,把“occupation”换成“profession”,或者提一句“她是美国名人”。

传统RAG有多“死板”?换个问法就给错答案,行业痛点卡了数年竟无人破局!

明明是提升大模型能力的“利器”,却因读不懂人类的“言外之意”成了“鸡肋”。

眼看RAG落地陷僵局,中国科研团队突然抛出重磅成果:

北航、北大联合中关村实验室搞出的DRAG框架,多任务准确率飙升!

在大模型落地的浪潮里,检索增强生成(RAG)早成了行业“香饽饽”。

不管是企业客服自动答惑,还是科研人员查文献,都得靠它提升回答的准确性和时效性。

可用过的人都知道,这技术有个让人头疼的毛病——认死理。

就拿问“Hattie McDaniel的职业是什么”来说,要是你换个说法,把“occupation”换成“profession”,或者提一句“她是美国名人”。

传统RAG就可能犯迷糊,要么把不相关的文档当成宝,要么漏掉关键信息,最后给出的答案驴唇不对马嘴。

这背后其实是“词汇多样性”这个隐形痛点在作祟,可之前行业里竟没几个人正经解决它。

直到ACL 2025上,北航、北大和中关村实验室的团队扔出了个重磅成果——Lexical Diversity-aware RAG(DRAG)框架。

这框架首次把“词汇多样性”系统性地融入RAG的检索和生成环节,还做成了轻量、通用的方案,一下就把行业的天花板往上抬了不少。

要解决词汇多样性的问题,得从RAG的两大核心环节下手,DRAG框架就针对性地搞了两个关键模块。

先看检索端的Diversity-sensitive Relevance Analyzer(DRA),它跟传统检索的“一刀切”完全不同。传统方法只会把整个问题和文档比,而DRA会把问题拆成不同部分,用不同策略判断相关性。

像人名“Hattie McDaniel”这种不变词,DRA要求文档必须精确匹配,不然很容易把其他同名人物的信息混进来。

而“occupation”这种可变词,DRA会借助大模型的语义理解能力,允许文档里出现“profession”“actress”这类同义或相关表达,不会因为用词不一样就漏掉有用信息。

经过这么一番精细操作,DRA能给检索结果重新排序,给出更精准的相关性评分,大大减少了“假阳性”(把无关文档当相关)和“假阴性”(漏掉相关文档)的情况,相当于给RAG找材料时安了个“火眼金睛”。

可光检索准还不够,生成阶段也容易出问题。有时候明明找对了材料,模型生成答案时却会被里面的无关信息带偏。

为了解决这个问题,DRAG框架搞了个Risk-guided Sparse Calibration(RSC)模块,思路特别有意思,借鉴了“风险控制”的逻辑。

RSC会在模型生成每个token的时候,实时监控三种风险。第一种是词汇风险,看生成的内容是不是过度依赖了文档里相关性低的词汇;

第二种是注意力风险,检查模型的注意力是不是集中到了无关的段落上;第三种是预测风险,判断当前生成的内容和检索到的证据有没有冲突。

最关键的是,RSC采用了“稀疏校准”的方式,它不会对所有生成内容都指手画脚,只在检测到高风险token的时候才动态干预。

这样既避免了模型走偏,又不会影响生成效率和自然度,相当于给RAG的生成环节装了个“方向盘”,关键时刻能及时纠正方向。这两个模块一配合,效果立竿见影。

DRAG框架的意义可不止提升几个百分点的准确率那么简单。它最大的价值,是让RAG开始真正“理解”人类语言的复杂性,而不是停留在表面的文字匹配。

人类交流时同一个意思本来就有无数种表达方式,要是AI连这点都适应不了,怎么能更好地服务于人?

而且这个技术在专业领域的潜力特别大,比如医疗行业,医生问诊时表述可能不一样,有的说“咳嗽”,有的说“”,有的会补充“夜间加重”,DRAG就能更精准地匹配病历和医学文献,辅助医生诊断。

这次北航团队的突破,不仅给RAG技术指了个新方向,也让我们看到了中国科研团队在AI领域的硬实力。相信再过不久,我们就能在更多场景里,感受到这项技术带来的便利。

来源:小张的任意门

相关推荐