对话智源研究院副院长林咏华:当下已进入语言模型深水区 预计2025年会出现更多新的多模态模型

B站影视 2024-12-20 15:36 2

摘要:近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

《科创板日报》20日讯(记者 李明明)近日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

就评测结果显示当前语言模型发展放缓的具体原因,智源研究院副院长兼总工程师林咏华在接受《科创板日报》记者采访时表示,首先,现在最优秀的语言模型已经发展了一定的基础能力,再明显的增长不是特别容易,不能只是拼更大的参数或更多的数据这条路,而是需要更多的深入创新才能提升,因此,会看到更新更大的语言模型出现的频率有所减缓,因此现在进入了语言模型的深水区。

从全球模型的发展情况来看,模型尺寸出现两极分化。11月Hugging Face下载量最高的模型显示,高下载量出现在两极分化的模型上,一类是更大更强的稠密模型,像Llama3.1的405B全球一个月的下载量是七八百万,也是下载量最高之一。但是剩下的高下载量则很多是7B或以下的小模型。

“其次,可以看到多模态模型的潜力。目前多模态模型的需求蓬勃发展,但是,相较语言模型来说,其在基础能力上有明显的提升空间。2025年,预计多模态模型会层出不穷,包括开源模型,会有更多新的多模态模型。” 林咏华说。

“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题

智源研究院评测结果显示,语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

在语言模型主观评测重点考察模型中文能力方面,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

在视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型方面,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于语言模型会产生更多Agent

随着技术的不断成熟和应用场景的不断拓展,多模态大模型也在各个领域发挥越来越重要的作用。相应的各家大模型厂商去年目标多是追逐AGI,今年则开始发力应用。

对于AGI和应用这两者的优先级,林咏华告诉《科创板日报》记者,通过整理今年5月和12月的两组对比数据,可以看到,以语言模型为例,追逐更大更强的语言模型,尤其是开源模型的这些厂商数量在减少;同时,本次评测的开源模型中,国内新出现的厂商较少。

因此,对于国内大模型厂商来说,很多厂商经过一年多的训练,其模型能力已经到达了一定应用的可能性,需要尽快做应用落地。

林咏华进一步表示,如今依然还有少部分的厂商和机构会在AGI的路上不断往前走,例如META今年推出了405B的超大模型,其全球下载量也很大,智源发布的Emu3也是完全原生的多模态世界模型等。因此目前的趋势是,全球开始有分层有分工地追求AGI,一部分不断地追求更强更大的AGI模型,另一部分则希望有好的模型做应用尝试。

但是,今年没有特别明显的killer APP出来,智源从评测的众多模型来看,明年AI应用的趋势会体现在哪些方面?

对此,林咏华告诉《科创板日报》记者,AI应用的具体情况和模型发展到什么阶段相关。例如,今年很多AI应用是以语言模型为基础,经过2023年语言模型的蓬勃发展,2024年语言模型基础能力水平较高,并开始发展复杂的应用能力,所以出现以各种的语言模型为支撑的AI应用。

2025年,语言模型会继续往前发展,基于语言模型会产生更多的Agent,然后围绕Agent来做更复杂的AI应用和系统,这也是明年的热点之一。

同时,经过今年的发展,无论是开源模型,还是闭源模型,2025年都会出现基于文生图、尤其是文生视频的应用。

另外,如果从模型的能力上看,以VLM多模态为代表的跨模态视觉语言模型,在企业的落地场景会有很多,现在有一些已经落地,有一些还在探索当中。明年把基础能力做得更好,也会形成新的AI应用。

如今,互联网科技巨头大力推多模态大模型,而且算力和算法等也是这些巨头的优势。那么,相对于巨头以及先崛起的AI六小龙,目前正待崛起的小的模型企业,他们的机会在哪?

林咏华认为,多模态模型有不同的训练方法,如果用VLM的做法,通过语言塔加视觉塔为基础进行训练,不需要完全从头开始。 此外,多模态模型上可以有不同的创新,比如,不同模态的连接方式、预处理、后处理、微调学习、强化学习等,是那些资金不强但是创新能力足够强的团队可以做的事情。

此外,林咏华还表示,互联网大厂在模型的技术能力上有两方面的优势。

“首先,语言模型需要更多的用户使用,才能起到数据飞轮的作用,互联网大厂有很强的流量优势,对比流量小的模型厂商有天然的优势;其次,在文生图、文生视频方面,像字节、快手的优势在于数据,其本身有短视频平台,积累了相关的高质量数据,会比其他的非互联网厂商有明显的优势。”

来源:财联社

相关推荐