摘要:AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。
【新智元导读】 AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。
捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果!
新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。
目前,最好的模型,准确率也小于10%,而且自信「过头」。
具体结果如下:
Scale AI和CAIS同时公布了相关论文、数据集和测试代码。
为了评估AI的能力的进展,已发布了多个数据集,针对语言模型,根据「Paper with code」网站统计,就有165个相关数据集。
「人类最后一次考试」(HLE)包含两种问题格式:
精确匹配题(Exact-Match Questions):模型需要输出一个完全匹配的字符串作为答案。
选择题(Multiple-Choice Questions):模型需要从五个或更多选项中选择一个正确答案。 此外,HLE是一个多模态基准测试,其中10%的问题要求理解文本和图像参考,80%的问题为精确匹配题,其余为选择题。 该数据集包含3000道难度较高的问题,涉及100多个学科。 各学科分类,大体如下:顶级问题奖励:每道排名前50的问题将获得5,000美元奖金。
优质问题奖励:接下来的500道问题,每道将获得500美元奖金。 此外,任何被HLE接受的问题提交者,都有机会成为相关论文的共同作者,激励了众多高水平的专家参与,特别是那些拥有高级学位或在相关技术领域拥有丰富经验的专业人士。 总体而言,总收集了超过70,000个试验性问题,其中13,000个问题被选出来供人类专家评审,进而最终确定在公开考试中发布的3,000个问题。 近1000名专家成功提交了问题。 他们来自50个国家的500多个机构,其中大多数贡献者是活跃的研究员或教授。 问题涵盖了多种格式,包括纯文本和多模态难题,整合了图像和图表。 为了 确保问题的高质量和难度, HLE的数据集通过以下流程创建:问题筛选:首先接收问题提交,这些问题专门前沿的LLM设计,LLM通常难以正确回答。
迭代优化:在专家同行评审的帮助下,反复修改和优化提交的问题,提升问题的复杂性和准确性。
手动审核:由组织者或由组织者培训的专家,手动审核每道问题,确保问题符合测试要求。
保留私有数据集:除了公开数据集,还保留了一部分私有测试集,用于评估模型在公开基准测试上的过拟合和可能的作弊行为。展望未来
在「人类最后一次考试」(Humanity's Last Exam,简称 HLE)中,目前的LLM表现仍然非常差。
但从发展历史来看,基准测试的饱和速度非常快——模型往往在短短的时间内,从接近0的准确率跃升至接近100%的表现。
鉴于AI发展的快速步伐,在2025年底前,模型有可能在HLE上超过50%的准确率。来源:东窗史谈
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!