tmf资讯_B站影视

红杉中国推出 Agent 基准测试「xbench」，双轨评估体系

xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：（1）评估AI系统的能力上限与技术边界；（2）量化AI系统在真实场景的效用价值（Utility Value

今天，红杉中国对外宣布推出一款全新的AI基准测试工具xbench，并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后，第一家由投资机构主导发布的基准测试（Benchmark），给火爆的AI圈增添了新的话题。

红杉中国于今天正式推出一款全新的AI基准测试工具xbench（ xbench.org），并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world

随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。

在经历数月的火车罢工和护士离岗后，新州又面临更多工人动乱的风险。教师工会准备在州议会大厦前发起抗议，反对对工人赔偿制度的改革。