摘要:8月21日,百度就发布了第二代视频生成模型「蒸汽机2.0」。百度称,这是全球首个类似Google Veo 3的中文音视频一体化模型,能够端到端地生成带有音频的视频内容。在Google今年6月推出Veo 3之前,全球包括Sora在内的视频模型生成的视频内容都是默
Key Points
「蒸汽机」系列模型并非出自文心大模型团队,而由百度商业的技术团队主导开发;
文心系列模型主打语言模型和多模态理解,蒸汽机系列模型主打多模态生成;
「蒸汽机2.0」给出了行业7折的定价,团队负责人说他们创新了架构,还特别强调分发效率——百度App要做对AIGC分发最友善的平台;
今年3月,百度搜索推出了代号为「百看计划」的搜索变革,支持图文和音视频的多模态输出。经「百看」改造后,百度搜索和信息流都更加视频化了;
未来是否推出独立的蒸汽机终端应用,目前还没有答案。
今年7月2日,百度才发布首个视频生成模型「蒸汽机1.0」,比可灵、即梦等晚了差不多1年。但在音视频一体化生成模型的进度上,百度反超了。
8月21日,百度就发布了第二代视频生成模型「蒸汽机2.0」。百度称,这是全球首个类似Google Veo 3的中文音视频一体化模型,能够端到端地生成带有音频的视频内容。在Google今年6月推出Veo 3之前,全球包括Sora在内的视频模型生成的视频内容都是默片。
「蒸汽机2.0」并非出自文心大模型团队,而是由百度旗下负责搜索、信息流等产品的商业变现团队主导开发。百度商业隶属于MEG(百度移动生态事业群),曾负责构建百度广告的技术底座,即百度凤巢。文心大模型团队隶属于百度TPG(技术中台事业群)。
蒸汽机2.0能在生成视频内容的同时生成相应的音频。
今年7月2日,百度商业曾推出「蒸汽机1.0」模型,为百度旗下首个视频生成大模型。百度副总裁、移动生态商业体系负责人陈一凡对第一财经「新皮层」称,「文心模型到现在为止还是以语言模型和多模态理解为主,在生成上,蒸汽机模型团队会做得更多」。而相较于蒸汽机1.0,蒸汽机2.0除了首次实现音视频生成的一体化,还在视频生成的画质、运镜和生成内容的物理一致性等方面实现了技术升级。
百度商业体系商业研发总经理刘林在发布会上称,百度计划以「行业价格的70%」销售蒸汽机系列模型,比如适配主要场景的turbo版,同行生成720P精度视频的模型定价是2元/5秒,蒸汽机模型的价格是1.4元/5秒。好莱坞视效指导姚骐在发布会上展示了他使用蒸汽机模型制作的短片《归途》,同类短片如果用实景拍摄加上特效制作,成本在百万元级别,耗时需要大半年,但使用蒸汽机模型,姚骐说他只用了1周多时间,成本是330.6元。
视效指导姚骐使用蒸汽机2.0制作了科幻短片《归途》,成本330.6元。
蒸汽机2.0发布的同一天(8月21日),快手发布2025年二季度业绩报告,宣布可灵AI的季度收入达到2.5亿元。百度则在前一天(8月20日)的财报中称,包括百度云、智能驾驶等在内的非广告营销业务收入达到100亿元,同比增长34%。
发布蒸汽机1.0时,陈一凡就表示该系列模型是从百度一系列应用基于AIGC重构的「内部需求」出发开发的。目前阶段,百度商业团队也会聚焦用蒸汽机模型为百度搜索、信息流、商业等生态视频生成工具。发布会上,百度还展示了一汽-大众使用百度蒸汽机模型为揽境品牌制作的七夕营销短片。至于是否会像行业内其他视频生成模型那样运营一个独立的终端产品,陈一凡称「不排除这种可能性,要跟着发展来看,现在确实没有答案」。
行业没有跟随Sora生成长视频,因为它的架构决定了成本是指数级增长的
今年6月,Google发布最新视频生成模型Veo 3,首次实现音频和视频生成的一体化。不过这个模型并不支持中文,百度商业研发首席架构师李双龙称,蒸汽机2.0是首个支持中文的音视频一体化大模型,它能更好理解中文的发音特色。
李双龙表示,该模型的技术难点在于做到形、声、音、容一体,而且要做到多角色的一体化。其次,是如何通过端到端的学习达成这样一体化生成的效果,而不是把整个生成过程拆成很多步去训练。当下业界主流一般是通过多角色多条件输入控制的方式来实现,就是人工预先编排好哪一个角色先说、哪一个角色后说、具体说什么、用什么音色等,成本高且效果不好。而蒸汽机2.0「用LMMP技术实现了自动化的多角色隐式理解规划编排学习」,无需人工多角色编排。
蒸汽机2.0在视频生成时长上并没有跨越式进步,依然只能生成5秒到10秒。李双龙称这是行业现状,本质上是由技术架构导致的,当下的技术架构以扩散模型为主,扩散架构下如果要生成更长的视频,成本是指数级增长的。
以OpenAI去年年初发布的Sora为例,它虽然声称做到了60秒的内容生成,但行业中几乎没有同行跟随Sora推出相似生成时长的产品,原因就是其架构对生成的成本要求太高。
视频生成的架构演进上,李双龙称,行业里一开始用的是扩散模型,但扩散模型在实时生成和交互上有很大瓶颈。后来有些人开始用自回归,自回归能够生成一些实时视频,也能生成一些更符合自然规律的视频,因为它本身是按照因果模型建构的,而扩散模型本身会丢失因果关系。但自回归有自回归的问题,比如误差问题,如果第一帧错了,后面的帧就会全错。把扩散和自回归结合在一起一定程度上能缓解一些问题。
但百度商业的技术团队在尝试过程中发现,把扩散和自回归结合在一起并不能完全解决累积误差问题。所以他们在扩散和自回归结合的基础上,又做了一些创新,既保留扩散模型的一致性优势,同时也继承自回归更流畅的叙事表达和符合物理规律的能力,同时也能进一步减少累积误差问题。李双龙称,百度商业技术团队的下一代技术架构「将解决扩散模型的成本瓶颈,有望突破无限时长的生成限制,并向实时交互视频跃进」。
百度商业团队发布视频生成模型之前,百度TPG(技术中台事业群)已推出多个文心系列大模型。陈一凡称,蒸汽机模型团队和文心模型团队有非常多合作,其中文心在架构层、对语言模型的理解方面打下了很好的基础,因为视频模型也需要非常多的语言理解、标注和整体控制。但文心模型到现在为止还是以语言模型和多模态理解为主,在生成上,蒸汽机模型团队会做得更多。
作为一个商业变现团队,百度商业之所以会在众多AIGC方向中选择视频方向,陈一凡称,原因之一是他发现「视频创作者和视频平台的用户量之间存在一个量级差」,也就是很多人有想法,但不会创作,「如果你能提供工具,很多人就能开始创作了」,陈一凡说。发布会当天上台展示用蒸汽机展示视频创作成果的成员中,就有百度的搜索用户。陈一凡认为,视频模型再往下发展,就会发展到世界模型,那是一个多模态生成、理解一体化的模型,沿着这个方向再往前走的空间非常大。
行业7折定价:除了模型架构创新,更多基于分发效率
蒸汽机1.0发布后到50多天里,陈一凡称团队收到了非常多的迭代需求。
第一是运镜,初代模型运镜有些单一,在推拉下画面有可能会飞,团队做了大量的数据补充,对运镜做了比较好的调整;第二是画质,蒸汽机1.0能生成720P清晰度的画面,这次蒸汽机2.0发布了1080P清晰度;第三是一致性,蒸汽机1.0生成的视频有一致性的问题,团队内部也意识到了,这次对一致性做了比较大的升级;第四是音画一体化的生成,这件事也是由用户提出来的,基于李双龙提到的技术发展,对这个问题做了整体性调整。第五是价格,蒸汽机1.0虽然没有收费,但对标市场的价格,定价还是有点高,所以蒸汽机2.0做了降价。这几个方向基本是这50天比较重要的一些优化。
蒸汽机1.0发布后没有收费,蒸汽机2.0定价为行业的70%。
定价策略上,蒸汽机2.0给出了市场价格的7折左右。陈一凡称,百度商业团队基于两个层面的工作实现降价。一方面是底层架构,百度商业体系是最早用GPU构建产品的团队,大家现在看到用GPU来做搜、广、推是一个非常常见的事,但百度商业团队基本上2016年就开始用GPU开发,刘林的团队对以GPU为基础算力的架构非常熟悉,有很好的积累,他们知道到底如何基于GPU更好地做训练。上一代大模型,大家更注重算法、策略,这一代大模型里工程是非常重要的。
在这个架构下,蒸汽机团队基于百度智能云的百舸平台,以及百度自研的昆仑芯片做了专业适配,陈一凡称,这个适配对蒸汽机模型降本也有较大帮助。
在模型降本之外,陈一凡表示对于降本更重要的是「分发」。「我们要把百度App做成一个对AIGC分发最友善的平台。就是你只要做出来好东西,它就能被分发出去,对于一些创作者来说,假设你花了10万块钱创作视频,有上千万分发、上百万的点赞可能也值了,但如果你分发不好,就算只花了100块钱创作,你可能也亏了。」陈一凡说,当大家真正有收益,整体循环就能转起来。
这种降本不只是面向用户的,也面向百度内部的商业化团队。以一汽-大众揽境使用蒸汽机模型生成的七夕热点营销短片为例,陈一凡称,这个视频如果按照常规拍摄,拍完之后销售团队再去和大客户的CMO沟通,那可能自己要先花个10万、20万元的成本,做完之后这单子还不一定能拿得下来,但现在这个视频如果只花300多块钱,哪怕一个销售自己掏钱都可以把它做出来,做出来之后再让客户去看,沟通成本就变得很低。
百度App要做对AIGC分发最友善的平台
7月2日发布蒸汽机1.0时,陈一凡就声称,其团队开发蒸汽机系列模型是「内部需求」驱动的。
8月21日发布蒸汽机2.0时,他再次强调了这一点。「现阶段,我们的主要目标还是结合视频生成本身,结合我们的变现引擎(注:指百度搜索、信息流等百度系App),去做生产、分发和变现的端到端一体化优化。」陈一凡说。
这种从生产到分发和变现的「端到端一体化优化」是以往做不到的:以往的分发和生产是脱节的,无法联动优化。但到了AIGC,所有东西都是模型化的,开始可以做到——也需要做到生产到分发、变现整个流程的一体化优化。陈一凡称,未来除了生产,这种一体化优化也是一个要做的「大工作」。
今年3月,百度搜索推出代号为「百看计划」的搜索体验变革,支持图文和音视频的多模态输出。陈一凡称,经「百看」改造之后,百度搜索和信息流都开始更加视频化了。
「百度App可以说也是一个视频分发平台……如果你是基于这个场景来做营销,视频反而是最自然的,对于我们的客户来说,我们提供蒸汽机这个工具,就是方便他们在百度场域更好地营销。」陈一凡说。目前,用户在百度的营销平台「擎舵」中使用蒸汽机生成物料是免费的,因为百度希望用户能更多地把创意变成好的广告,然后在百度平台做整体发布。
用蒸汽机模型为一汽-大众生成的广告短片。
百度商业估计3类群体会是蒸汽机模型的目标用户。一类是大的品牌广告主,比如一汽-大众,它本身就要做创意,蒸汽机既能帮它迸发创意,又能完成创意。第二类是大的效果广告主,效果广告对物料的要求非常多,而且效果广告主想要做类似于「僵尸入侵」之类内容的时候,很难自己做出来,蒸汽机可以做出来。
还有一类是广大中小企业,比如工厂主如果想展示其工厂特色,自己拍摄可能达不到足够好的质量,百度商业认为蒸汽机模型就可以帮这类客户基于现有物料生成视频化内容。陈一凡称,百度广告收入有很大一部分是中小企业带来的,他们也必须帮助这部分客户在这个时代获取更多流量和客户。
60%多的搜索结果有了AIGC的痕迹,重要的是找到习惯这种内容的用户
蒸汽机2.0发布的同一天,快手发布财报宣布旗下视频生成业务可灵AI今年二季度的营收已达到2.5亿元。
陈一凡称,他并不焦虑,因为从很多角度看,行业都还在早期。目前的视频模型还不能生成实时视频、长视频和有互动性的视频,未来还有世界模型,很多东西都还没有做到,未来的空间比现在能看到的东西大得多。
「我们(蒸汽机)是50天的Baby,但实际上对行业来说,大家都在Baby阶段。」陈一凡说。现在这个阶段的卷是大家互相启发彼此的过程,是一个不断探索上限到底在哪、怎么能继续突破上限的过程。语言模型领域也是一样,2022年年底到现在都非常卷,但其实大模型离真正的AGI还非常远。所以百度蒸汽机团队看的是未来空间,而不是现在简单的ROI。
陈一凡强调蒸汽机系列模型是内部需求驱动的产物,无论搜索还是信息流,百度内容的改造很大一部分是基于AIGC做生成和分发,蒸汽机是AIGC非常重要的生产工具。据了解,百度已经有60%多的搜索结果「有了AIGC的痕迹」,而且增长「根本拦不住」。
陈一凡称,正是在把蒸汽机用到对百度内容做AIGC改造的过程中,他们发现了分发的重要性,「就是你能找到什么样的用户习惯用这种方式去接收信息很重要,这样你的分发也会更友善」。他认为,对很多创作者来说,收益的提升比降本重要,收益提升的前提就是分发。分发更友善,创作者就更有动力去创作,百度百家号现在每天有数百万的视频创作量级,背后有非常大的空间。
目前,蒸汽机模型还没有一个像行业内其他视频工具那样的终端客户端。除了营销平台「擎舵」,百度商业团队还运营一个叫「绘想」的平台,用户可以在这个网站上使用蒸汽机模型。
在擎舵、绘想平台中创作的视频都可以在百度搜索和信息流中做分发,但百度商业目前并没有计划把绘想做成一个创作者社区,其现阶段策略仍然是做好模型、赋能百度已有的内容平台和创作者生态,而非再自建一个内容生态。
现阶段,蒸汽机团队的工作重心是「把模型做得更好,让大家能更好地调用」。陈一凡认为,如果蒸汽机作为底层能力能驱动上层的百度生态、提升其能力,就是蒸汽机最短的成功路径。 「如果AIGC视频在搜索场景下带来的用户留存能多一个百分点,就是一个非常大的数字,这个数字我们已经基本看到了。把这个数字折算成百度的搜索收入,如果能带来一个点的收入提升,那就是几十亿级别。」陈一凡说。
不过,未来蒸汽机是否会成为一个独立的「端」、有一个内容和创作者生态,陈一凡说他「不排除这种可能性,要跟着发展来看,现在确实没有答案」。
来源:晚晚的星河日记一点号