对AI的可靠性质疑,科学家揭示零模型在大模型基准测试取得高胜率 但是,如果测试结果受到不当影响,例如操纵模型输出的长度或风格来操纵胜率,模型性能的排名可能因此失去可信度,进而直接影响整个行业的信任和技术进步。 模型 基准测试 郑晓森 2024-12-05 10:58 2