图|如果模型产生的答案具有不确定性,那么每个问题生成(和评分)多个答案将导致评测分数分散。如果评测不使用思维链推理(即其答案不是“路径依赖”),那么分数中的随机成分通常可以使用语言模型中的 next-token 概率完全消除。例如,如果多项选择题的正确答案是“B”,那么只需使用模型生成 token“B”的概率作为问题分数。研究团队表示不知道目前有哪个开源评测框架实现了这种技术。建议 4:分析配对差异评测分数本身没有任何意义;它们只有在相互关联时才有意义(一个模型优于另一个模型,或与另一个模型能力相当,或超过某一个人)。但是,两个模型之间测量到的差异可能是由于评测中问题的特定选择以及模型答案的随机性造成的吗?可以通过双样本 t-test 来找出答案,仅使用从两个评测分数计算出的平均值的标准误差。然而,双样本检验忽略了评测数据中的隐藏结构。由于问题列表在模型之间共享,因此进行配对差异检验可以消除问题难度的差异,并专注于答案的差异。研究中展示了配对差异检验的结果与两个模型的问题分数之间的皮尔逊相关系数之间的关系,相关系数越高,平均差异的标准误差就越小。研究发现,在实践中,前沿模型之间主流评测中问题得分的相关性相当高——在 -1 到 +1 的范围内介于 0.3 和 0.7 之间。换句话说,前沿模型总体上倾向于对同样的问题做出正确和错误的回答。由此可知,配对差异分析代表了一种非常适合 AI 模型评测的“自由”方差减少技术。因此,为了从数据中提取最清晰的信号,研究建议在比较两个或多个模型时报告配对信息——平均差、标准误差、置信区间和相关性。建议 5:使用效力分析统计显著性的另一面是统计效力,即统计检验检测出两个模型之间差异的能力(假设存在这种差异)。如果评测中没有太多问题,则与任何统计检验相关的置信区间都会很宽。这意味着模型需要具有很大的潜在能力差异才能记录具有统计显著性的结果,而微小的差异很可能不会被发现。效力分析是指观察计数、统计功效、假阳率和感兴趣的效应大小之间的数学关系。研究展示了如何将效力分析的概念应用于评测。具体来说,他们向研究人员展示了如何制定假设(例如模型 A 的表现比模型 B 高出 3 个百分点)并计算评测应包含的问题数量,以便根据零假设检验该假设(例如模型 A 和模型 B 是平局)。他们相信效力分析在很多情况下都会对研究人员有所帮助。他们的效力公式将告知模型评估人员重新抽样问题答案的次数(参见上面的建议 3),以及在保留所需效力特性的同时可包含在随机子样本中的问题数量。研究人员可能会使用效力公式得出结论,在特定模型对上运行具有有限数量可用问题的评测是不值得的。新评测的开发人员可能希望使用该公式来帮助决定要包含多少问题。结论统计学是在噪声环境下进行测量的科学。评测提出了许多实际挑战,而真正的评测科学仍未得到充分发展。统计学只能构成评测科学的一个方面,但却是至关重要的一个方面,因为经验科学的好坏取决于其测量工具。Anthropic 希望,论文中提出的建议将帮助人工智能研究人员比以前更精确、更清晰地计算、解释和传达评测数字,并且鼓励他们探索实验设计中的其他技术,以便能够更准确地理解他们想要测量的所有内容。整理:阮文韵摘要:图|如果模型产生的答案具有不确定性,那么每个问题生成(和评分)多个答案将导致评测分数分散。如果评测不使用思维链推理(即其答案不是“路径依赖”),那么分数中的随机成分通常可以使用语言模型中的 next-token 概率完全消除。例如,如果多项选择题的正确答案是“
来源:小康说科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!