打破AI能力的惯性评估方式,红杉中国推出全新双轨基准测试xbench
随着基础模型的快速发展和AI agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。
随着基础模型的快速发展和AI agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。
xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value
随着人工智能技术的飞速发展,特别是 AI 智能体(Agent)能力的显著增强,现有基准测试在衡量其真实世界效能方面已显不足。针对这一挑战,红杉中国(没错,那家知名投资机构)今日推出了一个 AI 基准测试工具 xbench,并同步发布了相关技术报告《xbench
今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。
根据xbench的介绍,这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的基准测试。它将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品
红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
红杉中国于今天正式推出一款全新的AI基准测试工具xbench( xbench.org),并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world
5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。
5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。
随着基础模型的快速发展和AI Agent进入规模化应用,被广泛用于评估AI能力的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困难,这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库,纷纷在各大测试
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。