tmf

红杉中国,刚刚发了一篇Paper

今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。

红杉 agent 姚顺 tmf xbench 2025-05-26 11:13  3

今天,我们推出xbench

随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。

评测 agent tracking tmf xbench 2025-05-26 08:02  3