摘要:导读本文基于深言科技(DeepLang AI)的技术分享,系统阐述了大模型落地中的核心挑战——“幻觉”问题,并提出了创新的 EDU(基本语义单元)解决方案。该技术通过将文本深度解析为树状语义单元,显著降低模型理解难度,实现平均 20-40% 的幻觉率降低,且能
导读 本文基于深言科技(DeepLang AI)的技术分享,系统阐述了大模型落地中的核心挑战——“幻觉”问题,并提出了创新的 EDU(基本语义单元)解决方案。该技术通过将文本深度解析为树状语义单元,显著降低模型理解难度,实现平均 20-40% 的幻觉率降低,且能零成本适配所有主流模型。技术已应用于语鲸 APP(10 倍提效的个性化信息助手)和犀牛洞见(高精准深度研究 Agent)产品中,有效解决了生成内容的可信度与溯源问题,为大模型可靠落地提供了实践路径。本次分享题目为“低幻觉可信大模型技术与产业实践”。
主要介绍以下六个方面:
1. 公司介绍
2. 信息获取与分发的思考
3. 挑战与思路
4. 产品实践
5. 总结
6. 专业问答(Q&A)
分享嘉宾|陈刚 北京深言科技有限责任公司 联创&技术负责人
编辑整理|杨峰
内容校对|郭慧敏
出品社区|DataFun
01
深言科技(DeepLang AI)孵化自清华大学自然语言处理与社会人文计算实验室及北京智源人工智能研究院,是一家专注于大模型技术研发和产业落地的初创企业。公司致力于构建基于大规模预训练模型的新一代智能信息处理引擎,通过人工智能技术重构数亿脑力劳动者及数千万信息密集型组织的信息处理全流程。
公司核心团队具备深厚的技术背景:
岂凡超(CEO):清华大学电子系本科、计算机系博士,发表顶级论文30余篇,申请发明专利 20 余项,论文引用超 3000 次,曾深度参与中国首个大规模预训练模型"悟道"的研发工作。孙茂松教授(首席科学家):清华大学人工智能研究院常务副院长,欧洲科学院院士,ACL/中国人工智能学会/中文信息处理学会会士,973 项目首席科学家。02
深言科技致力于将大模型技术落地到信息处理全流程场景,打造 AI 时代的信息处理引擎。公司将信息处理归纳为三个核心模块:信息获取、信息调用和信息表达,三者形成闭环,构成完整的信息流转和处理流程。当前我们聚焦信息获取模块,用大模型提升用户获取信息的效率。信息获取和分发方式经历了从导航网站、搜索引擎到社交媒体、推荐引擎的演变。
信息获取和分发方式的变化主要由两个因素驱动:
需求侧:更高的目标达成效率,包括功能性需求(更快解决问题、做出正确决策)和情感性需求(单位时间内获取更多情绪价值)。供给侧:技术进步降低内容生产门槛和成本,实现更高效、更低成本、更个性化的分发。目前主要是人在消费信息,未来可能是 AI 和人一起消费信息。大模型技术带来的变革:
生产效率显著提高,成本降低,导致供给侧产能过剩分发效率提升,用户需求和意图得到更好满足推动内容生产和消费方式向更高效的 AI 原生方向发展,大模型技术将重塑内容生产和消费方式,走向人机协同的高效模式。03
1. 大模型的幻觉问题
OpenAI 最新研究表明,即使在最先进的系统中,语言模型仍然会产生"幻觉"——即生成看似合理但实际不正确的陈述。这种现象严重破坏了用户信任。
实验数据显示,模型幻觉问题并未随着参数规模增大而减轻:O3 和 O4 的幻觉,可能比 O1还要严重,测评显示,DeepSeek-R1 幻觉比 V3 更严重。SuperCLUE-Faith 中文大模型忠实性测评显示,最好的模型仍有 4% 的句子存在幻觉问题。
从第一性原理看,大模型基于概率预测生成文本,难以消除不确定性,导致幻觉。落地中,幻觉使用户无法信任生成内容,阻碍有价值信息处理;在 Agent 场景,幻觉导致系统稳定性差、错误中断。
2. 幻觉与内容长度的关系
研究表明,模型幻觉随着内容长度的增加而显著增加。这与人类认知规律一致:处理更长篇幅的内容需要更高的理解难度,生成过程的不确定性也随之增加。如何降低模型理解难度?我们观察到,AI 在代码类任务上效果更好(如 Cursor、ClaudeCode 产品),可能是因为相对人类语言,代码结构更清晰、逻辑性更强。这启发我们这样推论:信息更结构化可提升模型理解和生成的准确性。
3. 基本语义单元(EDU)技术
自然语言文本是非结构化数据,但蕴含结构化信息(如知识图谱)。认知心理学家 Steven Pinker 在《风格感觉》中提到:写作之难在于将网状思考用树状结构线性展开。基于此,我们提出基本语义单元(EDU)技术降低幻觉。受代码数据结构化特性的启发,深言科技提出了基本语义单元(Elementary Discourse Unit, EDU)技术。EDU 指不可再被分割的最小基本信息单元,通过将内容分解为 EDU,可以显著降低模型生成内容的幻觉。
结合大模型,EDU 显著降低生成幻觉——类似按说明书拼装积木,确保结构清晰,逻辑清楚。 技术上,我们将原始文档精细化解析为树状语义结构(细至句子粒度),附加层级标签,供大模型执行下游任务(文档问答、摘要、深度报告等)。自研结构化解析模型在切分准确性(如树编辑距离 TED、篇章准确率 DLA)上优于通用模型,成本效率更高。
4. EDU 技术架构
基础解析:对原始网页/文档进行初步处理细粒度解析:进行深度的结构化拆解最小信息单元:生成 EDU 级别的深度报告5. EDU 技术优势:降低幻觉
对比实验显示,EDU 技术能显著降低各类大模型的幻觉率:
模型无 EDU 幻觉率EDU 技术后幻觉率降低幅度GPT-547.4%5.1%-42.3%Claude Opus 4.133.7%7.5%-26.2%Gemini-2.5-Pro36.7%13.7%-23.0%DeepSeek V3.136.8%8.3%-28.5%DeepSeek R150.2%23.2%-27.0%降低幻觉:结构化信息减少模型理解难度,聚焦关键信息(分治思想)。实验显示,在大纲生成任务中,GPT-5幻觉率下降42.3%(从47.4%至5.1%),其他模型(Claude、Gemini、DeepSeek)也有显著提升。6. EDU 技术优势:生成更全面
通过层级化的摘要结构:
一级摘要:总体概括二级摘要:章节级摘要三级摘要:语义单元级详细摘要这种分层结构实现了精细化摘要颗粒度,有效减少信息错漏。
生成更全面:EDU 实现 100% 要点无遗漏总结,问答完整性和全面性优于通用模型。
7. EDU 技术优势:基于结构化信息的可控生成
可控生成,深言科技提出了 WGrammar 轻量级解码引擎,该技术:
集成领域感知简化、约束分解和掩码缓存相比现有系统实现最高达 250 倍的解码加速支持 HTML、JSON 等结构化输出格式8. EDU 技术优势:AI 内容精准溯源
通过结构化生成技术,实现生成内容的 100% 可溯源:
每个生成信息都能定位到原始信息来源用户可一键查看原文验证准确性显著提升用户对生成内容的信任度9. EDU 技术的模型适配性
零成本适配所有大模型:EDU 通过增强语义结构信息提升准确性,无需改变模型本身。
EDU 技术可零成本适配所有大模型,通过提供丰富的语义和结构信息来提升生成准确性。在 BrowseComp-ZH 基准测试中,所有模型在使用 EDU 增强后准确性均显著提升。
在 HLE(Human-Like Evaluation)基准测试中:
使用 EDU 技术后,GPT-5 准确率达到 27.1%超越 GPT-5 的 25.3% 和 Grok-4 的 25.4%实现了非 Agent 类方法的新 SOTA 结果10. 结构化信息在 Agent 场景的探索
将结构化思维扩展到 Agent 领域:
树状 Planning树状文档信息:EDU 结构化处理实验显示,结构化 Planning 结合 EDU 能显著提升 Agent 性能:
GPT-5 准确率从 60.0% 提升至 71.0%Gemini-2.5-Pro 准确率从 57.0% 提升至 69.0%11. 小模型实现低幻觉
通过后训练技术,在更小参数模型上实现更低幻觉:
数据层面:高质量数据合成与筛选算法层面:基于幻觉设计的强化学习 reward 机制8B 参数模型在大纲生成任务上的表现:
幻觉率降至 3.2%,低于 GPT-5 的 5.1%实现低幻觉、高质量、高效率生成相关研究成果已发表在 ACL、EMNLP 等顶级学术会议上。
04
产业实践
1. 语鲸 APP:可信赖的个人信息助手
语鲸 APP 致力于解决信息过载问题,基于自研的低幻觉大模型完成信息获取和分发过程中的订阅、聚合、总结,帮助用户高效获取有价值信息。
2. 丰富的订阅资源
语鲸 APP 支持多种信息源订阅:
中英文网站播客国内外论文科技资讯文章行业研究报告自定义公众号/RSS 链接3. 精准的 AI 总结功能
基于 EDU 技术,语鲸 APP 能够:
对单篇文章进行分级摘要保持逻辑清晰,方便快速获取信息实现生成内容的精准溯源支持多篇内容自动聚合生成专题报告4. 个性化专属日报
根据用户订阅和阅读习惯:
自动生成个性化每日简报5 分钟阅读 500 篇文章精华涵盖所有你关心的多维度内容5. 犀牛洞见:高精准深度研究 Agent 产品
基于信息结构化技术的 AI 原生产品:
完全依赖模型自主进行需求理解和任务规划生成详尽准确的深度研究报告所有客观事实附带精准引用来源支持图表和数据溯源6. 企业级应用方案
深言科技提供标准化的 API 服务:
支持文档预处理和结构化解析无缝对接企业现有工作流程无需改变现有数据存储方案支持自定义分块和层级调整05
总结
深言科技通过 EDU 技术创新性地解决了大模型幻觉问题,在保持生成可控性的同时显著降低幻觉率。该技术已成功应用于语鲸 APP 和犀牛洞见等产品,展现了生成式 AI 技术与实际业务场景深度融合的巨大潜力。
未来,公司将继续致力于低幻觉生成技术的深入探索,推动大模型技术在更多场景中的可靠落地,为构建可信 AI 生态系统贡献力量。
06
专业问答(Q&A)
Q1:在大模型的应用落地中,幻觉问题是需要跨过的一道关键门槛。请问,如果一家 ToB 企业希望接入贵公司的低幻觉技术,具体的接入步骤和流程是怎样的?
A1:我们的低幻觉相关技术能力已经通过 API 接口进行了标准化封装。企业用户只需调用我们的 API 对其原始信息进行预处理,即可将处理后的、富含结构化信息的内容无缝集成到其现有的应用流程中。例如,在文档问答场景中,客户无需自研复杂的文本切分与结构化模块,直接调用我们的 API 即可获得优化后的输入,从而显著降低下游大模型任务的幻觉率。
Q2:在技术集成过程中,客户的数据是如何处理的?数据存储的方案是如何设计的?
A2:目前的数据处理模式是由客户侧发起调用。客户可以提供可公开访问的信息链接,或直接上传文档、网页内容至我们的 API 接口。我们的系统会在云端执行解析、清洗和结构化拆解,最终将处理后的、树状结构的纯净文本信息返回给客户。我们当前不存储或管理客户的原始数据,处理过程完成后即释放,重点在于提供信息处理的计算服务而非数据托管。这种设计避免了侵入客户现有系统,也更好地满足了不同客户对数据隐私和安全的需求。
Q3:该技术是否能与客户已有的向量检索等自定义流程结合?
A3:完全可以。我们的核心价值在于提供更优的“信息预处理”方案。输出的是经过深度结构化分解的内容,客户可以基于我们返回的树状层级结构,非常灵活地适配其已有的业务逻辑。例如,他们可以根据自身需求,选择在不同层级(如章节级、段落级或语义单元级)进行信息分块(Chunking),既能保证语义上的完整性,又能控制输入大模型的上下文长度。这种灵活性确保了技术可以广泛适配各种不同的应用场景。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk
