基准测试资讯

评估真相：DeepSeek推理模型在基准测试中的浮动陷阱

最近，来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切：通过评估设计战略性夸大LLM推理能力》的研究论文，该论文发表于2025年6月5日的arXiv预印本平台（arXiv:2506.04734v1）。这项研究深入探讨了一个令人担忧的

2025年5月，来自中国科学技术大学、上海创新研究院、南开大学、武汉大学和上海人工智能实验室的研究团队在arXiv平台发布了一项开创性研究，论文题为《SridBench: Benchmark of Scientific Research Illustratio

长期以来，业界一直有观点认为，在总拥有成本（TCO）下，AMD 的 AI 服务器推理性能优于英伟达。过去六个月，本文通过对英伟达和 AMD 提供的推理解决方案进行全面分析与基准测试，对这一说法展开了调查验证。原本期待得到一个简单结论，但结果远比想象中复杂且令人

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

随着基础模型的快速发展和AI Agent进入规模化应用，被广泛用于评估AI能力的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实反映AI系统的客观能力正变得越来越困难，这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库，纷纷在各大测试

科技的浪潮滚滚向前，每一次硬件的迭代都不仅仅是数字的变动，更是应用场景的深刻变革。近期两大显卡巨头纷纷发布了新一代的NVIDIA GeForce RTX 50系列与AMDRadeon RX 9070系列消费级显卡，引发了玩家、内容创作者，甚至是专业人士的热烈讨

今天，OpenAI 宣布了改进后的 GPT-4o 模型，并进行了一些显著的改进。最新的 GPT-4o 模型改进了创意写作能力，可以提供更自然、更吸引人、更有针对性的写作，并具有更好的相关性和可读性。 OpenAI 还声称，这个新模型能更好地处理上传的文件，提