xbench资讯_B站影视

打破AI能力的惯性评估方式，红杉中国推出全新双轨基准测试xbench

随着基础模型的快速发展和AI agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。

随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。

xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：（1）评估AI系统的能力上限与技术边界；（2）量化AI系统在真实场景的效用价值（Utility Value

随着人工智能技术的飞速发展，特别是 AI 智能体（Agent）能力的显著增强，现有基准测试在衡量其真实世界效能方面已显不足。针对这一挑战，红杉中国（没错，那家知名投资机构）今日推出了一个 AI 基准测试工具 xbench，并同步发布了相关技术报告《xbench

今天，红杉中国对外宣布推出一款全新的AI基准测试工具xbench，并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后，第一家由投资机构主导发布的基准测试（Benchmark），给火爆的AI圈增添了新的话题。

根据xbench的介绍，这是首个由投资机构发起，联合国内外十余家顶尖高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制的基准测试。它将在评估和推动AI系统能力提升上限与技术边界的同时，重点量化AI系统在真实场景的效用价值，并长期捕捉Agent产品

红杉中国今天正式推出一款全新的AI基准测试工具xbench，并发布论文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

红杉中国于今天正式推出一款全新的AI基准测试工具xbench（ xbench.org），并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

随着基础模型的快速发展和AI Agent进入规模化应用，被广泛用于评估AI能力的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实反映AI系统的客观能力正变得越来越困难，这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库，纷纷在各大测试

随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。