AI测评迎来巨大的变化!颠覆传统榜单!1亿融资+大厂混战

B站影视 内地电影 2025-11-18 11:38 1

摘要:你有没有过这种困惑?打开手机刷AI榜单,一会儿看到GPT排第一,一会儿又说Claude更厉害,中国的DeepSeek也时不时冲上前三。这些排名到底靠谱吗?其实行业里早就有个公开的秘密,不少模型是靠“刷分作弊”才登顶的,静态题库里的题目早就被塞进训练数据里,模型

前言:

你有没有过这种困惑?打开手机刷AI榜单,一会儿看到GPT排第一,一会儿又说Claude更厉害,中国的DeepSeek也时不时冲上前三。这些排名到底靠谱吗?其实行业里早就有个公开的秘密,不少模型是靠“刷分作弊”才登顶的,静态题库里的题目早就被塞进训练数据里,模型不是“会做”而是“记住”了答案。就在大家对AI评测失去信任的时候,一个叫LMArena的平台突然火了,每天上千场AI实时对战,普通用户投票选最优,连谷歌发布新模型前都要先来这儿“热身”。这到底是个什么神奇平台?AI评测的下半场,真的要变天了吗?

要搞懂LMArena为啥能火,得先说说以前的AI是怎么“考试”的。之前行业里都靠固定题库,像MMLU、BIG-Bench这些,听着挺专业,其实就是把高中到博士级别的57个领域题目攒一起,让模型答题判分。比如问“神经网络梯度消失怎么解决”,或者让模型解释冷笑话、续写诗歌。这些题库好处是标准统一,论文里只要刷高分就能证明模型强,AI上半场就是靠这种“比成绩”快速发展的。

但问题也越来越明显。首先是题库泄露,很多题目早就在模型训练数据里了,模型得分高不是真懂,只是记性好。再者,这种考试太封闭了,就像让学生做模拟题,考得再好,到了真实对话场景可能还是不行。华盛顿大学助理教授朱邦华就说过,之前的静态题库数量少、覆盖面窄,还特别容易“过拟合”,几百道题带着标准答案练,就算有污染检测,也很难百分之百防住。比如Math500、HumanEval这些题库,只涉及简单数学和代码,根本测不出模型在复杂场景的真实能力。

就是在这种背景下,LMArena的前身ChatbotArena在2023年5月诞生了。它是由LMSYS这个非营利研究组织搞的,当时团队刚推出开源模型Vicuna,想和斯坦福的Alpaca比一比,却找不到合适的评测方法。他们先试了让GPT-3.5当评委打分,后来又试了让人类直接对比两个模型的回答,结果发现后者更靠谱,这就成了LMArena的核心机制。

现在打开LMArena,你看不到复杂的评分表,界面特别简单。你输入一个问题,系统会随机挑两个模型来回答,比如一边是GPT-4,一边是Claude,但你不知道它们是谁。等两边答案出来,你选个觉得更好的,投票结束才会揭晓模型身份,这就是“匿名对战”。投票结果会实时算进排名,用的是类似国际象棋的Elo评分机制,每个模型有初始分,赢了涨分、输了扣分,对战次数越多,排名越准。

这种模式妙就妙在把评测变成了“真实世界的动态实验”。不是一次性考完就完事,而是每天都有上千人参与,问题也五花八门,可能是俄罗斯用户问的生活难题,也可能是越南用户提的技术疑问,这些实时产生的独特问题,根本没法提前塞进训练数据里,自然也就不存在“作弊”的可能。朱邦华说,LMArena的技术不算新,更多是把经典统计方法做成了工程化产品,真正的创新在系统架构和调度机制上。比如有100个模型要对比,怎么动态选出最该比的两个?团队靠主动学习不断摸索,还调整参数确保好模型能被选出来,再加上当时行业特别缺靠谱的评测标准,人类偏好数据也没被过度开发,LMArena一下子就成了行业里的“黄金基准”。

从2023年底开始,LMArena的热度就挡不住了。前特斯拉AI总监AndrejKarpathy在推特上公开说,他只信两个LLM评测方式,一个是ChatbotArena,另一个是r/LocalLlama。这话一出来,平台瞬间收获第一批“流量”。到2024年初,GPT-4、Claude、Gemini这些头部模型陆续入驻,访问量暴涨,研究者、开发者甚至普通用户都来这儿看模型“真实表现”。

后来平台功能越做越多,不再只测语言对话。2024年底,专门测代码生成的CodeArena、测搜索能力的SearchArena、测图像理解的ImageArena陆续上线。到2025年1月,平台正式从ChatbotArena改名叫LMArena,也就是“大模型竞技场”的意思。谷歌更是把这儿当成了新模型的“首发站”,之前爆火的文生图模型NanoBanana,最早就是以神秘代号在LMArena露面,最近传闻中的Gemini3.0也被网友扒出来在上面测试,据说代号分别是lithiumflow和orionmist,还能读表、作曲,现在各家大厂都把LMArena当成“常规赛场”,就为了拿普通用户的真实反馈。

不过火归火,LMArena的麻烦也不少,最受争议的就是“公平性”。毕竟投票的是人,难免带主观偏见。有研究发现,用户更容易选“语气自然”“回答写得长”的模型,哪怕它逻辑没那么严谨、信息没那么准确。也就是说,模型可能因为“讨人喜欢”赢了,而不是真的更智能。

2025年初,Cohere、斯坦福等机构联合发了篇论文,扒出LMArena的更多问题:它的排名和传统题库得分没强相关性,还存在“话题偏差”和“地区偏差”,比如某些类型的问题、某个地区用户的投票,能明显改变模型排名。更严重的是“刷榜”问题,既然排名被当成“权威参考”,有些公司就开始针对性优化模型回答风格,比如故意用模糊语气、堆字数,甚至搞“专供版”模型。

最典型的就是今年4月Meta的“刷榜事件”。当时Meta提交的Llama4Maverick在LMArena上超过GPT-4o和Claude,冲到榜单第二,结果等开源版一上线,开发者发现实际效果差远了,大家怀疑Meta给平台的是专门优化过投票机制的“特供版”,Llama4的口碑一下就崩了。后来LMArena官方赶紧改了规则,要求厂商必须披露模型版本和配置,还把公开的HuggingFace版Llama4Maverick加进来重新评估,但“评测公正性”的讨论至今没停。

还有个争议点是商业化。2025年5月,LMArena背后团队注册了公司“ArenaIntelligenceInc.”,还拿到了1亿美元种子轮融资,投资方包括a16z、UCInvestments这些大机构。这意味着它从开源研究项目变成了商业公司,以后可能会做数据分析、定制化评测、企业级报告这些业务。消息一出来,业内就开始担心:资本进来了,客户需求和市场压力会不会影响平台中立性?它还能像以前那样当“公平裁判”吗?

其实LMArena的出现,并不是要取代传统题库。现在传统Benchmark也在进化,比如MMLU出了难度更高的MMLUPro,BIG-Bench有了BIG-Bench-Hard,还有针对细分领域的新题库,数学逻辑领域的AIME2025、编程领域的SWE-Bench、多智能体领域的AgentBench。这些新题库不再只考“死知识”,而是模拟模型在真实世界的工作方式,从单一试卷变成了多层次的评测体系。

与此同时,更贴近“真实实战”的评测也冒了出来。比如最近有个叫AlphaArena的平台,让DeepSeek、Gemini、GPT等六个模型在加密货币交易市场对战,给每个模型相同的资金和提示,让它们自己做交易决策,最后看收益和策略稳定性。结果DeepSeek赢了,毕竟它背后是量化基金公司。虽然有人说这更像“噱头”,大语言模型预测股市本来就不靠谱,但这种让模型在动态对抗环境中接受考验的思路,确实给AI评测提供了新方向,只不过这种方式结果难复现、难量化,目前还没法大规模推广。

说到底,不管是LMArena还是新题库、实战平台,都不是“非此即彼”的关系。未来的AI评测,更可能是“动静结合”的融合框架:静态题库负责提供可复现、可量化的标准,就像学生的模拟考,保证基础能力达标;LMArena这类动态平台负责捕捉真实交互中的人类偏好,像实战演练,看模型在实际场景中好不好用。两者结合,才能完整衡量一个模型的智能水平。

朱邦华说,现在AI评测最大的挑战是“题目不够难”。随着模型越来越强,以前觉得难的问题现在成了“送分题”。LMArena虽然推出过“难度过滤版”,让模型先判断问题难度再筛选,但现在连这些筛选后的问题也不够用了。真正的解决办法,是让人类专家和强化学习环境一起打造高难度数据。比如英伟达现在在做的强化学习环境平台,就是想让更多人能创造难一点的测试场景;还有些团队找数学博士、计算机博士来标注高难度数据,一条数据能卖到几千美元,只有用这种级别的数据做训练和评测,才能真正测出模型的上限。

OpenAI研究员姚顺雨在博客里写过,AI上半场是“怎么训练模型”,下半场是“怎么定义和衡量智能”。现在看来,这话一点没错。LMArena的出现,不是结束了AI评测的争议,而是把争议引向了更核心的问题:当评测数据、用户偏好、甚至投票机制都可能成为商业竞争的工具时,“公平”该怎么定义?我们到底需要什么样的评测体系,才能既保证标准统一,又不脱离真实需求?

或许未来的AI评测,会是一场持续不断的“实验”。我们要在成百上千个题库里挑出有价值的任务,在LMArena这样的平台上捕捉人类偏好,再把这些碎片拼成一个动态、开放、可信的智能测量体系。到那时候,我们可能就不用再纠结“哪个模型最强”,而是能真正搞懂“智能到底是什么”——而这,可能比任何排行榜都重要。

来源:科技美南

相关推荐