即使是最好的AI也无法超越这一新基准 得分甚至不到10%
这项新基准被称为 "人类最后的考试",它评估了人工智能系统是否已经在数学、人文科学和自然科学等广泛领域实现了世界级的专家级推理和知识能力。 整个秋季,CAIS 和 Scale AI 从专家那里收集了大量问题,汇集成最难、最广泛的问题,以难倒人工智能模型。 开发
这项新基准被称为 "人类最后的考试",它评估了人工智能系统是否已经在数学、人文科学和自然科学等广泛领域实现了世界级的专家级推理和知识能力。 整个秋季,CAIS 和 Scale AI 从专家那里收集了大量问题,汇集成最难、最广泛的问题,以难倒人工智能模型。 开发