测试xbench

打破AI能力的惯性评估方式，红杉中国推出全新双轨基准测试xbench

随着基础模型的快速发展和AI agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。