当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。 然而,现有研究表明, LLM 在应对噪声输入时存在明显不足 :当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10 」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。摘要:当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。
新问题 :对当前流行的思维链提示技术,我们提出了尚未充分探究的噪声思维链问题(Noisy Rationales),并给出了详细的问题定义和统一的问题建模;
新数据集 :我们构建了 NoRa 数据集,用于评测 LLM 在噪声思维链提示下的推理鲁棒性。我们使用 NoRa 数据集对 LLM 展开系统评估,揭露了 LLM 推理的鲁棒性不足,数据去噪能力非常有限的问题;
新方法 :我们设计了一种简单有效的方法(CD-CoT),基于单个正确的思维链示例,去纠正噪声思维链并完成推理,并通过大量实验验证了方法的有效性。
接下来将从 新问题、新数据集、新方法 这三个角度,简要地介绍我们关于大模型推理鲁棒性的研究结果,相关论文已发表于 NeurIPS 2024 会议。论文标题:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
论文链接:https://arxiv.org/pdf/2410.23856
代码链接:https://github.com/tmlr-group/NoisyRationales
slides 链接:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf
新问题:Noisy Rationales 思维链可以有效提升大模型的推理能力 [1]。具体来说,通过给出带有中间推理步骤的示例,LLM 可以很快地适应到新任务上,而无需进行参数修改(见图 2 右上角)。现有工作中,通常假设思维链包含清楚且正确的推理步骤,但实际情况可能并非如此。不相关噪声(Irrelevant Thoughts) 是指对解决问题无用的信息,如在推断亲属关系时讨论探讨兄弟姐妹之间的基因重叠情况;
不准确噪声(Inaccurate Thoughts) 则是推理中的事实性错误,如在特定进制计算中使用错误的计算规则。
自我纠正方法(Self-correction) :包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];
自我一致性方法(Self-consistency) :包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。
无论采取哪种现有方法,LLM 都会受到噪声思维链的严重影响 。具体来说,存在不相关噪声时,各方法的性能下降了 0.2% - 25.3%;存在不准确噪声时,各方法的性能下降了 0.1% - 54.0%;
在 NoRa 的大多数任务中,自我纠正方法的表现不佳 ;
自一致性方法可以在一定程度上缓解噪声的影响,但无法做到真正的数据去噪 。
此外,我们还进行了各种消融研究,来探索 不同因素 对 NoRa 数据集评估结果的影响(见图 6),我们发现:调整温度系数 可以改善模型在噪声思维链下的推理性能;
使用更多的噪声示例 可以提高大多数任务的推理性能;
不同的大语言模型 普遍容易受到噪声思维链的影响。
改写思维链 :借助一个干净的思维链示例,引导 LLM 通过对比改写和纠正噪声思维链,并生成多个改写的思维链(见图 7 step1);
选择思维链 :通过答案匹配,筛选出改写后答案不变的思维链,形成精炼的候选集;再从中随机选取一定数量的思维链,用于后续的推理(见图 7 step2);
探索推理链 :将选取的思维链排列成不同的上下文,与目标问题一同输入给 LLM,并采用较高的温度参数进行多次重复推理,以探索多样的推理路径(见图 8 step3);
答案 :将所有得到的答案进行,得到最终答案(见图 8 step4)。
完整的 CD-CoT 算法请见图 9。当面对噪声思维链时,与 base model 相比,CD-CoT 在所有数据集上的性能均有显著提升,准确率平均提升幅度达到 17.8% ;
CD-CoT 对高噪声表现出显著的抵抗力,尤其在更具挑战的数学推理任务中 。
关于 CD-CoT 超参数的消融实验结果显示, 干净的思维链示例在 CD-CoT 中扮演着关键的角色 ;当变化 N,M,C 等超参数的取值时,准确性仅呈现出细微的变化(见图 11)。在论文中,我们默认采用 M 设为 2 的 CD-CoT 示例,以在效率和效果之间取得平衡;
CD-CoT 在不同的 LLM 上具有良好的泛化能力 ,与 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其准确率分别提高了 23.4% 和 21.6% ,并超越了所有基线方法(见图 12)。
来源:晚晚的星河日记一点号