多模态2025：技术路线“神仙打架”，视频生成冲上云霄

摘要：智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得；隶属大厂队的字节、腾讯

文｜魏琳华

编｜王一粟

一场大会，聚集了中国多模态大模型的“半壁江山”。

智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得；隶属大厂队的字节、腾讯、百度的多模态技术负责人，以及学术界的人大和MIT（麻省理工）的相关专家学者。

自回归、扩散、原生多模态......围绕种种技术路线的论证和实践分享都证明了一件事：相比硕果仅存的大语言模型战场，多模态大模型的技术路线还远远没有收敛。

“多模态大模型已在特定场景启动落地，但尚未实现高度普适化。”智源研究院院长王仲远给出了这样的判断。他指出，根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平，将推动产业进一步发展。

在种种空白中，多模态想要打开下半场的入口，显然还有一段路要走。

多模态，尚未迎来“ChatGPT时刻”

“对于多模态模型而言，现在定义下半场还为时尚早，我们连上半场都还没有看到边界在哪里。”

面对“如何看待大模型下半场”的问题时，Sand.ai联合创始人张拯给出了这样的回答。

“慢一拍”的多模态大模型，限制了应用端的能力表现。以视频生成为例，智象未来CEO梅涛指出，目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。

叙事性，即保证视频“做5分钟和1小时是完整的故事”，保持IP的一致性；而在稳定性上，需要保证画面质量、运动连贯性、时序一致性等方面的稳定，目前表现较好；可控性，则是衡量视频内容生成的精准程度，第几秒出现什么镜头，人物做什么表情等要求非常高。但今天的大模型，还无法达到这样的水准。

现阶段，想要提升模型生成效果，数据质量就成了关键。

“我们为什么会看到Google的Veo 3，很多模型做得很好、做得很逼真，如果在模型架构上大家都趋同的话，其实真正的竞争就取决于高质量的数据。”智象未来CEO梅涛说，“其实我们并没有产生所谓新的智能，只是在复制我们看到的这个世界。”

Google Veo 3模型展示

围绕如何提升多模态大模型的能力，多家企业所践行的技术路线并不相同。

相对于普遍采用Diffusion Transformer（Dit，即扩散Transformer）模型的文生图、文生视频领域，多模态大模型到底是采用自回归模型、扩散模型还是其他方式，业内对此没有达成共识。

在大会现场，Sand.ai CEO曹越给出了他对扩散模型带来的问题思考：

“技术层面，主流的Diffusion和Transformer的训练方案还是存在很大问题，核心问题在于可扩展性不足。”曹越说，“在Diffusion Transformer路线上，现在证明生成5秒视频可以有不错的效果，但随着模型规模提升，会快速达到瓶颈。”

即使在生成机制一致的情况下，模型架构和训练方式的不同也对模型生成效果带来影响。

在Luma AI创始人宋佳铭看来，多模态大模型进入下半场的前提，是上半场要先把不同模态像语言一样统一处理，既要用同一个模型建模，还要保证推理足够快。

是将多个模态拼接训练，还是在一开始就采用统一架构，把各种模态的信息丢到一起统一训练，这就是多模态和“原生多模态”两条路线的区分。

“当前多模态大模型的学习路径，尤其是多模态理解模型，通常是先将语言模型训练到很强的程度，随后再学习其他模态信息。”王仲远说，“这就如同先达到博士学位水平，再去接触其他知识。”

然而，在上述过程中，模型的能力可能会出现下降。用王仲远的话说，模型的能力可能从 “博士” 水平降至 “大学” 甚至 “高中” 水平。

为了解决这个问题，智源研究院早在去年10月上线了全球首个原生多模态世界大模型Emu3，试图将多种模态的数据统一在一个架构内。

作为原生多模态模型，Emu3采用自回归的生成方式，基于下一个token预测范式统一多模态学习，通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列，构建模态无关的统一表征空间，实现文本、图像、视频的任意组合理解与生成。

也就是说，你可以随意将文字、语音和视频丢给Emu3处理，而它也同样能够用这三种形式生成内容，实现跨模态交互。

想要通往多模态大模型的下半场，多模态数据形态的扩充也是关键之一。MIT CSAIL何凯明组博士后研究员黎天鸿认为，真正的“下半场”多模态，应该是模型能处理超越人类感官的数据。

在会议现场中，智源研究院也分享了在图像、文字、声音和视频之外，多模态数据形态的扩充——脑信号。

“悟界”大模型系列中的见微Brainμ就脱胎于Emu3的“骨架”中。基于Emu3的底层架构，智源研究院成功将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化，并完成了100万单位的神经信号预训练。

“脑信号数据是第一个尝试，”王仲远说，“具身领域的数据有更多模态，比如，3D信号、时空信号等，都可以作为一种模态进行融合。”

可以说，做原生多模态大模型的成本高、技术实现困难，对于拼落地速度的企业来说，是一个冒险的尝试。作为科研机构，智源研究院在做的事情，就是先替行业蹚出一条路。

多模态生成落地拐点，视频模型加速商业厮杀

在学界和业界探索技术道路的同时，企业端正在加速多模态大模型在行业中的落地进程，这也是中国AI发展的鲜明特色——商业化和模型发展并驾齐驱。

字节跳动Seed图像&视频生成负责人黄伟林给出两组数据印证：2025年，就是图像生成商业化元年。

“以效率数据为例，用户生成100张图的下载率在过去一年提升了3倍，如今高达60%以上，说明它已经越过了商业化的关键门槛。”黄伟林说，“从用户留存来看，比如30天留存，从原来的十几个百分点提升到了40%左右。”

谷歌对多模态市场规模的预估

当技术门槛逐渐降低、成本效率达到要求，AI视频生成也迎来了市场增长的黄金期。

黄伟林表示，目前头部视频生成产品的年化收入（ARR）预计今年达到1亿美元，明年可能增长到5到10亿美元。

生数科技CEO骆怡航也认为，今年多模态生成正处于规模化生产落地的拐点：在技术迭代迅速，效果、速度和成本提升的同时，行业需求增长旺盛，视频相关产业的落地节奏也在提速。

虽然当前大模型技术路线并不收敛，但在目前应用落地的阶段，AI视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求，并且把生成时间压缩到极低。

张拯认为，在不同发展阶段，AI视频生成会有完全不同的PMF。

比如，在早期阶段，很多交给人都非常难拍的视频，即使质量很差或者需要非常多的抽卡才能抽到视频，但是也远比搭一个景再拍内容的成本低4~5个数量级。

张拯举了个例子，比如拍摄在太空中的航空母舰，需要通过特效团队逐帧去做。但是现在交给模型，哪怕需要100次抽卡，最后要500元才能抽出一个片段，这个成本也比之前低很多。

在大量的应用场景下，中国的多模态大模型公司们，围绕着B端还是C端、哪条路先走的商业化路线，给出了不同的答案。

现阶段，AI视频在C端应用的突出案例，就是依靠视频生成的AI视频特效。

曾在TikTok团队提供AI视频技术支持，爱诗科技创始人王长虎分享了旗下产品PixVerse的突破里程碑，就来自于特效模版的上线。

据王长虎分享，通过特效视频模版在抖音以及国内外各大社交媒体上的传播，PixVerse打响了知名度。当月，在中国产品出海增速榜，PixVerse排在第二名，访问量提升80%。他还分享了一个印象深刻的数据——今年4月，超过PixVerse MAU增长的AI产品只有DeepSeek。

在技术快速迭代的同时，爱诗科技在商业化做出了自己的选择——先做To C，再做To B。靠着C端带起的声量，爱诗科技今年将版图放到了B端，于今年1月支持各行业的API和定制化视频生成，涵盖互联网、营销、电商等。

相比之下，生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里，生数科技有1年半都在琢磨落地问题，更在行业划分上，骆怡航给出了“八大行业、三十大场景”的版图，其中，互联网、广告、电影、动漫的应用占到了8成。

在切入B端的思考中，生数科技强调的是对成本以及生产效率的降低。

“要想满足技术需求，很重要的一点是，（AI视频生成）生产效率要提升100倍，生产成本要降低100倍，必须要和行业深入适配，满足行业的专业需求。”骆怡航说。

骆怡航分享，一家海外动画工作室和VIDU合作，打造了一个“AI动漫”工作流，能够批量生成创意，他们用两个月时间，生产了50集AI动漫短片。

当效率和生成达到满足商用的节点，当AI企业们陆续把商业化提上日程。可以预见的是，下半年，多模态领域的AI生成将在商业化上迎来更激烈的比拼。

来源：光锥智能

标签：视频模态神仙技术路线张拯

本文地址：http://news.43b.com.cn/a/582604.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐