多模态2025:技术路线“神仙打架”,视频生成冲上云霄

B站影视 电影资讯 2025-06-10 20:16 1

摘要:智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯

文|魏琳华

编|王一粟

一场大会,聚集了中国多模态大模型的“半壁江山”。

智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省理工)的相关专家学者。

自回归、扩散、原生多模态......围绕种种技术路线的论证和实践分享都证明了一件事:相比硕果仅存的大语言模型战场,多模态大模型的技术路线还远远没有收敛。

“多模态大模型已在特定场景启动落地,但尚未实现高度普适化。”智源研究院院长王仲远给出了这样的判断。他指出,根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平,将推动产业进一步发展。

在种种空白中,多模态想要打开下半场的入口,显然还有一段路要走。

多模态,尚未迎来“ChatGPT时刻”

“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”

面对“如何看待大模型下半场”的问题时,Sand.ai联合创始人张拯给出了这样的回答。

“慢一拍”的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来CEO梅涛指出,目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。

叙事性,即保证视频“做5分钟和1小时是完整的故事”,保持IP的一致性;而在稳定性上,需要保证画面质量、运动连贯性、时序一致性等方面的稳定,目前表现较好;可控性,则是衡量视频内容生成的精准程度,第几秒出现什么镜头,人物做什么表情等要求非常高。但今天的大模型,还无法达到这样的水准。

现阶段,想要提升模型生成效果,数据质量就成了关键。

“我们为什么会看到Google的Veo 3,很多模型做得很好、做得很逼真,如果在模型架构上大家都趋同的话,其实真正的竞争就取决于高质量的数据。”智象未来CEO梅涛说,“其实我们并没有产生所谓新的智能,只是在复制我们看到的这个世界。”

Google Veo 3模型展示

围绕如何提升多模态大模型的能力,多家企业所践行的技术路线并不相同。

相对于普遍采用Diffusion Transformer(Dit,即扩散Transformer)模型的文生图、文生视频领域,多模态大模型到底是采用自回归模型、扩散模型还是其他方式,业内对此没有达成共识。

在大会现场,Sand.ai CEO曹越给出了他对扩散模型带来的问题思考:

“技术层面,主流的Diffusion和Transformer的训练方案还是存在很大问题,核心问题在于可扩展性不足。”曹越说,“在Diffusion Transformer路线上,现在证明生成5秒视频可以有不错的效果,但随着模型规模提升,会快速达到瓶颈。”

即使在生成机制一致的情况下,模型架构和训练方式的不同也对模型生成效果带来影响。

在Luma AI创始人宋佳铭看来,多模态大模型进入下半场的前提,是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。

是将多个模态拼接训练,还是在一开始就采用统一架构,把各种模态的信息丢到一起统一训练,这就是多模态和“原生多模态”两条路线的区分。

“当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息。”王仲远说,“这就如同先达到博士学位水平,再去接触其他知识。”

然而,在上述过程中,模型的能力可能会出现下降。用王仲远的话说,模型的能力可能从 “博士” 水平降至 “大学” 甚至 “高中” 水平。

为了解决这个问题,智源研究院早在去年10月上线了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。

作为原生多模态模型,Emu3采用自回归的生成方式,基于下一个token预测范式统一多模态学习,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。

也就是说,你可以随意将文字、语音和视频丢给Emu3处理,而它也同样能够用这三种形式生成内容,实现跨模态交互。

想要通往多模态大模型的下半场,多模态数据形态的扩充也是关键之一。MIT CSAIL何凯明组博士后研究员黎天鸿认为,真正的“下半场”多模态,应该是模型能处理超越人类感官的数据。

在会议现场中,智源研究院也分享了在图像、文字、声音和视频之外,多模态数据形态的扩充——脑信号。

“悟界”大模型系列中的见微Brainμ就脱胎于Emu3的“骨架”中。基于Emu3的底层架构,智源研究院成功将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并完成了100万单位的神经信号预训练。

“脑信号数据是第一个尝试,”王仲远说,“具身领域的数据有更多模态,比如,3D信号、时空信号等,都可以作为一种模态进行融合。”

可以说,做原生多模态大模型的成本高、技术实现困难,对于拼落地速度的企业来说,是一个冒险的尝试。作为科研机构,智源研究院在做的事情,就是先替行业蹚出一条路。

多模态生成落地拐点,视频模型加速商业厮杀

在学界和业界探索技术道路的同时,企业端正在加速多模态大模型在行业中的落地进程,这也是中国AI发展的鲜明特色——商业化和模型发展并驾齐驱。

字节跳动Seed图像&视频生成负责人黄伟林给出两组数据印证:2025年,就是图像生成商业化元年。

“以效率数据为例,用户生成100张图的下载率在过去一年提升了3倍,如今高达60%以上,说明它已经越过了商业化的关键门槛。”黄伟林说,“从用户留存来看,比如30天留存,从原来的十几个百分点提升到了40%左右。”

谷歌对多模态市场规模的预估

当技术门槛逐渐降低、成本效率达到要求,AI视频生成也迎来了市场增长的黄金期。

黄伟林表示,目前头部视频生成产品的年化收入(ARR)预计今年达到1亿美元,明年可能增长到5到10亿美元。

生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点:在技术迭代迅速,效果、速度和成本提升的同时,行业需求增长旺盛,视频相关产业的落地节奏也在提速。

虽然当前大模型技术路线并不收敛,但在目前应用落地的阶段,AI视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求,并且把生成时间压缩到极低。

张拯认为,在不同发展阶段,AI视频生成会有完全不同的PMF。

比如,在早期阶段,很多交给人都非常难拍的视频,即使质量很差或者需要非常多的抽卡才能抽到视频,但是也远比搭一个景再拍内容的成本低4~5个数量级。

张拯举了个例子,比如拍摄在太空中的航空母舰,需要通过特效团队逐帧去做。但是现在交给模型,哪怕需要100次抽卡,最后要500元才能抽出一个片段,这个成本也比之前低很多。

在大量的应用场景下,中国的多模态大模型公司们,围绕着B端还是C端、哪条路先走的商业化路线,给出了不同的答案。

现阶段,AI视频在C端应用的突出案例,就是依靠视频生成的AI视频特效。

曾在TikTok团队提供AI视频技术支持,爱诗科技创始人王长虎分享了旗下产品PixVerse的突破里程碑,就来自于特效模版的上线。

据王长虎分享,通过特效视频模版在抖音以及国内外各大社交媒体上的传播,PixVerse打响了知名度。当月,在中国产品出海增速榜,PixVerse排在第二名,访问量提升80%。他还分享了一个印象深刻的数据——今年4月,超过PixVerse MAU增长的AI产品只有DeepSeek。

在技术快速迭代的同时,爱诗科技在商业化做出了自己的选择——先做To C,再做To B。靠着C端带起的声量,爱诗科技今年将版图放到了B端,于今年1月支持各行业的API和定制化视频生成,涵盖互联网、营销、电商等。

相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里,生数科技有1年半都在琢磨落地问题,更在行业划分上,骆怡航给出了“八大行业、三十大场景”的版图,其中,互联网、广告、电影、动漫的应用占到了8成。

在切入B端的思考中,生数科技强调的是对成本以及生产效率的降低。

“要想满足技术需求,很重要的一点是,(AI视频生成)生产效率要提升100倍,生产成本要降低100倍,必须要和行业深入适配,满足行业的专业需求。”骆怡航说。

骆怡航分享,一家海外动画工作室和VIDU合作,打造了一个“AI动漫”工作流,能够批量生成创意,他们用两个月时间,生产了50集AI动漫短片。

当效率和生成达到满足商用的节点,当AI企业们陆续把商业化提上日程。可以预见的是,下半年,多模态领域的AI生成将在商业化上迎来更激烈的比拼。

来源:光锥智能

相关推荐