评估真相:DeepSeek推理模型在基准测试中的浮动陷阱
最近,来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切:通过评估设计战略性夸大LLM推理能力》的研究论文,该论文发表于2025年6月5日的arXiv预印本平台(arXiv:2506.04734v1)。这项研究深入探讨了一个令人担忧的
推理模型 基准测试 deepsee deepseek推理模型 2025-06-09 15:43 5
最近,来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切:通过评估设计战略性夸大LLM推理能力》的研究论文,该论文发表于2025年6月5日的arXiv预印本平台(arXiv:2506.04734v1)。这项研究深入探讨了一个令人担忧的
推理模型 基准测试 deepsee deepseek推理模型 2025-06-09 15:43 5
2025年5月,来自中国科学技术大学、上海创新研究院、南开大学、武汉大学和上海人工智能实验室的研究团队在arXiv平台发布了一项开创性研究,论文题为《SridBench: Benchmark of Scientific Research Illustratio
长期以来,业界一直有观点认为,在总拥有成本(TCO)下,AMD 的 AI 服务器推理性能优于英伟达。过去六个月,本文通过对英伟达和 AMD 提供的推理解决方案进行全面分析与基准测试,对这一说法展开了调查验证。原本期待得到一个简单结论,但结果远比想象中复杂且令人
5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。
5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。
随着基础模型的快速发展和AI Agent进入规模化应用,被广泛用于评估AI能力的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困难,这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库,纷纷在各大测试
科技的浪潮滚滚向前,每一次硬件的迭代都不仅仅是数字的变动,更是应用场景的深刻变革。近期两大显卡巨头纷纷发布了新一代的NVIDIA GeForce RTX 50系列与AMDRadeon RX 9070系列消费级显卡,引发了玩家、内容创作者,甚至是专业人士的热烈讨
今天,OpenAI 宣布了改进后的 GPT-4o 模型,并进行了一些显著的改进。 最新的 GPT-4o 模型改进了创意写作能力,可以提供更自然、更吸引人、更有针对性的写作,并具有更好的相关性和可读性。 OpenAI 还声称,这个新模型能更好地处理上传的文件,提