谷歌再次称霸!伯克利等华人学生项目,竟成世界170+模型竞技场

B站影视 2024-12-09 15:26 2

摘要:当初,由UC伯克利、斯坦福、UCSD等高校华人学生发起的AI擂台,如今已经成为了超过170款模型的大比竞技场!全世界的初创公司和科技巨头都在拼命争夺第一的位置。

编辑:好困

【新智元导读】当初,由UC伯克利、斯坦福、UCSD等高校华人学生发起的AI擂台,如今已经成为了超过170款模型的大比竞技场!全世界的初创公司和科技巨头都在拼命争夺第一的位置。

就在谷歌庆祝自家大模型Gemini发布一周年之际,最新版本的gemini-exp-1206也成功强势回归!

不仅重新登顶Chatbot Arena总榜第一,而且还在代码能力榜上与o1并驾齐驱。

最新亮点(括号内为与gemini-exp-1121相比的进步):

总排名登顶第一(从第2升至第1)在风格控制评测中与GPT-4o-1120并列第一(从第4升至第1)在代码能力榜单与o1并列第一(从第3升至第1)在复杂提示词测试中独占鳌头(从第2升至第1)

左右滑动查看

来自UC伯克利、斯坦福、UCSD等高校的学生联合项目,引发了AI界的狂热

有趣的是,当Chatbot Arena在去年年初刚刚发布时,没人会想到这个由学生主导的项目,竟会迅速成为全球最受瞩目的AI系统评测平台。

传统上,AI技术都是通过高等数学、科学和法律测试来评估的。相比之下,Chatbot Arena采用的则是一套完全不同的方式——用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好。

最终,这些评分被汇总到一个排行榜上。在这里,OpenAI、谷歌和Meta等硅谷科技巨头会与来自中国和欧洲的初创或者大厂争夺霸主地位。

Meta AI产品管理总监Joseph Spisak表示:「每家公司都在努力争取登上这个排行榜的榜首。看到几个学生能够产生如此重大的影响力,真是令人赞叹。」

随着科技公司投入数百亿美元押注AI将成为未来几十年的决定性技术,Chatbot Arena迅速走红。

在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注Chatbot Arena。

2023年4月,来自UC Berkeley、斯坦福、UCSD的研究人员郑怜悯、Wei-Lin Chiang、盛颖、张昊推出了Chatbot Arena(LLM竞技场)。

他们使用类似职业象棋排名的评分系统,将自己开发的AI技术与其他开源聊天机器人进行对比。并在仅仅一周的时间里,就收到了4,700个评分。

很快,Chatbot Arena就引起了各大AI公司的关注,它们纷纷请求将自家技术纳入排名。

如今,项目中的模型已经从最初的9个,发展到了超过170个,并累计获得了200万张选票。

不仅如此,现在的排名还扩展到了创意写作、编程和指令执行等专门类别。

目前,这个项目由仍在攻读计算机科学博士学位的Anastasios Angelopoulos继续推动。不过,因为他把大部分精力都投入到了这个非营利的项目当中,学业进展比较缓慢。

对此,Angelopoulos调侃道:「我女朋友从早到晚听到的都是关于Chatbot Arena的事。」

靠「感觉」来评分

研究人员表示,随着时间推移,学术基准测试变得越来越不实用,因为LLM已经接触过这些测试题。也就是说,它们已经提前掌握了答案。

Abacus AI的研究主管Colin White表示:「基准测试在刚发布时可能对LLM来说非常具有挑战性,但当新一代LLM出现后,它们很快就能达到近乎完美的表现。」

为此,他们也提出了一种号称「无法作弊」的基准——LiveBench,每个月都会更新新的测试题。

无独有偶,MMLU的创始人之一Dan Hendrycks,也开始通过众包方式收集最具挑战性的问题,用来创建一个全新的基准测试——「人类的最后考试」。

尽管Chatbot Arena采用的一对一对抗形式不会像标准测试那样被轻易攻克,但这种方式并不总能衡量客观标准,也无法判断聊天机器人是否严格遵循已验证的事实。这就是为什么一些研究人员将这种方法称为「基于主观感受的评估」。

Chatbot Arena的负责人表示,他们始终对平台的局限性保持开放态度,并允许用户在查看排名时过滤掉一些风格因素,比如回复的长度和格式等。

Angelopoulos说:「用户的偏好是一个重要参考指标。毕竟这些测试查询本身就包含主观因素。」

神秘的模型

随着Chatbot Arena的影响力不断扩大,AI爱好者们开始密切关注新加入的模型,希望发现一些尚未公开的技术。

今年5月,一个名为「im-also-a-good-gpt2-chatbot」的神秘模型出现在Chatbot Arena上,并随即引发了激烈的讨论。

结果证明,这个模型正是OpenAI后来发布的GPT-4o。

当然,不只有OpenAI,马斯克的xAI、Meta和谷歌等,也都会在正式发布之前在Chatbot Arena上测试他们的模型。

11月,谷歌在Chatbot Arena上发布了Gemini技术的实验版本,随后与OpenAI并列第一。没过几天,OpenAI通过更新版的GPT-4o暂时领先,但谷歌很快又推出新模型追平了比分。

当时,负责监督Gemini开发的Oriol Vinyals分享了排行榜结果,还俏皮地配上了三个看戏吃瓜的爆米花表情。

如今,Chatbot Arena收集的用户反馈已经成为开发者的重要数据来源。

具体来说,平台定期公开20%的收集数据——这个比例既能确保数据的实用性,又能防止企业利用数据操纵评分系统。

比如,谷歌AI产品经理Kate Olszewska就表示,他们会利用这些数据来分析懂技术的用户是如何与聊天机器人互动的。

目前,Chatbot Arena已经招募了十多名贡献者,他们希望,能将这个项目打造成「AI领域的维基百科」。

即便前路漫漫,但团队并没有打算将其转变为营利性项目。

参考资料:

来源:新智元一点号

相关推荐