智源发布“百模”评测榜单:字节跳动居语言模型主观评测榜首

B站影视 2024-12-21 11:29 1

摘要:最近,OpenAI的首席科学家在公开场合表示大模型开发已经到了瓶颈阶段,这引发了广泛的讨论。究竟是数据资源枯竭,还是“数据孤岛”问题让我们无法更进一步?在这篇,林咏华的观点给了我们一个新的视角,特别是他对AGI的看法以及多模态大模型的未来展望,让人忍不住想深入

最近,OpenAI的首席科学家在公开场合表示大模型开发已经到了瓶颈阶段,这引发了广泛的讨论。究竟是数据资源枯竭,还是“数据孤岛”问题让我们无法更进一步?在这篇,林咏华的观点给了我们一个新的视角,特别是他对AGI的看法以及多模态大模型的未来展望,让人忍不住想深入了解。

大模型的评测标准

在当今互联网时代,大模型的开发如火如荰般进行着,各大互联网大厂凭借自身在流量和数据上的优势不断推动模型的提升。前不久,OpenAI的首席科学家伊尔亚在公开场合表达了自己的看法,他认为全球范围内大模型的开发已经到了瓶颈阶段,数据资源已经极为丰沛,大厂的优势并没有想象中那么明显。

但是林咏华却不这么认为,他认为数据资源并不少,但是却存在“数据孤岛”的问题,也就是不同的平台之间无法共享数据,这让很多算法研究人员无从下手。相对而言,企业用户的数据要丰富得多,因为他们可以通过多种渠道收集用户行为数据,而互联网平台往往只有基本的用户画像数据。

而对于AGI的追求,林咏华认为现在市场上存在很大的分歧,大多数企业还是希望将AI技术落地,为自己带来经济效益,而少数厂商仍然在AGI的道路上不断探索,似乎不计较投入产出比。对于这些企业来说,AGI的研究可能就是他们存在的意义。

但是林咏华相信,随着技术的发展,AGI也会慢慢向我们走来,而大多数企业应该把精力放在可以落地的应用上,比如生成式AI、自动驾驶、智能制造等领域。他预计,2025年会有更多基于文生图和文生视频的应用出现,推动AI技术真正落地。

他认为多模态大模型还有很大的发展空间,目前已经有很多厂商在这方面发力,比如字节跳动、百度、华为等,未来依靠这些多模态大模型的能力,具身智能等新兴领域也有望获得突破。

大模型评测平台

不过在大模型的开发和应用中,有一个很大的难题摆在我们面前,那就是如何对大模型进行评测。传统的评测方法已经无法适应大模型的需求,而如果没有统一的评测标准,大模型的开发就像无头苍蝇一样,得不到方向。

对此,智源研究院于2023年6月上线了一个大模型评测平台FlagEval,这个评测平台覆盖了全球800余个模型,并且已经有超200万条评测题目。这些题目涵盖了语言、视觉、逻辑、常识、数学等多个领域,可以说是非常全面了。

通过这个平台,不仅可以对大模型进行综合评测,还可以进行专项评测,比如语言理解、语言生成、图像理解、图像生成等。通过评测,我们不仅可以看到大模型的综合实力,还可以清晰地看到它在某个具体领域的表现如何。

对于普通用户来说,这个评测结果提供了很好的参考价值,他们可以根据评测结果选择适合自己的模型,而对于研发人员来说,评测结果则能帮助他们发现模型的短板,从而有针对性地进行改进。

AI应用热度提升

值得一提的是,在今年12月19日,智源研究院还发布了国内外100余个开源和商业闭源大模型的综合及专项评测结果。这份评测结果的发布,可以说是相当具有参考价值了,因为它涵盖了我们现在市面上绝大多数的大模型。

从综合排名来看,字节跳动的Doubaopro32kpreview和百度的ERNIE 4.0 Turbo分别排名第一和第二,这两款模型在各个领域都有着很强的竞争力,而且表现相当稳定。

而这份榜单上还有很多我们耳熟能详的大模型,比如OpenAI的GPT-4、Google的PaLM 2、Meta的LLaMA 2等等,它们分别位列第三到第七的位置。这些排名本身就很能说明问题了,即便是世界顶尖的大厂的大模型,在国内的一些模型面前也毫不占优,可以说是相当出乎意料了。

这份榜单的发布,对于整个行业来说都是一个利好消息。大多数企业对AI应用的关注度正在逐步提升,这份榜单很好的展示了各个模型的优缺点,可以帮助企业做出更明智的选择,而不是盲目地跟风。

而对于科研人员来说,这份榜单则相当于提供了一份详尽的报告,他们可以根据这些评测结果来改进自己的模型,避免重复造轮子。

结语

总之,随着大模型评测标准的建立和不断完善,我们有望在这个领域看到更多的创新和突破。特别是智源研究院的评测平台,真的是为行业提供了很好的参考。大家觉得大模型的评测标准对未来的发展影响大不大?欢迎在评论区分享你的看法,别忘了点赞哦!

来源:yoyo蔚蓝海

相关推荐