🤖 由 文心大模型 生成的文章摘要摘要:苹果公司在大语言模型(LLM)可靠性研究领域取得重大突破,其发布的RL4HS强化学习框架,实现了对模型幻觉内容的“精准定位”——不仅能判断输出是否存在错误,更能直接标出具体的错误段落。在权威基准测试中,该框架性能超越GPT-5、o3等当前顶尖商用模型,为解决L
苹果公司研发的大语言模型RL4H
苹果公司在大语言模型(LLM)可靠性研究领域取得重大突破,其发布的RL4HS强化学习框架,实现了对模型幻觉内容的“精准定位”——不仅能判断输出是否存在错误,更能直接标出具体的错误段落。在权威基准测试中,该框架性能超越GPT-5、o3等当前顶尖商用模型,为解决LLM“胡言乱语”难题提供了革命性方案。
长期以来,幻觉检测一直是LLM发展的核心瓶颈。传统方法多将其简化为“有/无幻觉”的二分类任务,仅能给出笼统判断,却无法定位具体错误片段。这种局限性在医疗诊断、法律文书、学术写作等高精度场景中尤为致命——用户即便知道输出有误,也需逐句核查纠错,效率极低。
苹果研究团队在论文中指出,幻觉片段检测本质是“多步骤决策过程”,需模型具备精细化推理能力。RL4HS的核心创新在于跳出传统框架,通过强化学习机制引导模型完成“思维链(CoT)推理+片段定位”的完整流程,彻底改变了幻觉检测的作业模式。
RL4HS的性能突破源于两大核心技术的协同作用:
片段级奖励机制(Span-levelRewards)
不同于传统“整体奖励”,该机制以片段级F1指标为核心设计奖励函数。模型每精准定位一个错误片段,就能获得对应奖励;若遗漏或误判,则会被扣分。这种精细化激励迫使模型放弃“笼统判断”的“偷懒行为”,转而进行逐段核查推理。
针对幻觉检测中“奖励不平衡”的固有难题,苹果创新性引入CAPO机制。研究发现,模型预测“无幻觉”时只需输出空列表即可得高分,而预测“有幻觉”需精准定位片段,难度远高且易失分,导致模型天然倾向于“保守判断”。CAPO通过设置缩放因子α(实验中取值0.5)调整非幻觉类别的优势值,有效平衡了两类预测的奖励权重,避免了召回率被抑制的问题。
这两大技术均构建于组相对策略优化(GRPO)基础之上,通过组内优势值标准化与类别平衡调整,形成了“激励精准推理+避免决策偏差”的完整闭环。
苹果团队在涵盖摘要生成、问答、数据到文本三大典型任务的RAGTruth基准测试集上,对RL4HS进行了全面验证。实验以Qwen2.5-7B/14B-Instruct为基础模型,与Qwen3系列、GPT-4o-mini、GPT-5、o3等10余款主流模型展开对比,结果呈现压倒性优势:
7B轻量化版本:三大任务平均F1值达55.9,较传统监督微调(SFT)模型提升11.6%;
14B标准版:摘要任务F1值57.6、问答任务54.8、数据到文本任务62.6,三项指标均超越GPT-5与o3,成为当前该领域性能最强模型。
定性分析更揭示了RL4HS的推理深度:在一则“酒店是否提供餐饮服务”的检测案例中,传统预训练模型因忽略“结构化数据无餐饮属性”的关键事实,未识别出幻觉;而RL4HS的推理过程与人工核查逻辑高度一致,精准标注出“提供餐饮服务”这一错误片段。
RL4HS的问世,标志着LLM幻觉治理从“被动防御”进入“主动定位”的新阶段。其核心价值不仅在于技术突破,更在于为高风险场景的AI应用扫清障碍:
医疗领域:可自动标注诊断建议中的错误依据,辅助医生快速核查;
法律场景:能定位合同生成中的虚假条款,降低合规风险;
内容创作:为学术论文、新闻报道提供事实核查支持,减少误导性信息传播。
来源:93913虚拟现实