摘要:百度蒸汽机再次升级,即将全新上线长视频模型能力。区别于行业目前主流的通过首尾帧续写等浅层的技术方案,将实现流式的无限时生成,用户输入图和prompt,可生成任意时长的视频。
“AI生成电影,很快就要来了?”
“敲下回车键,就能生一部电影?”
“视频生成模型如何成为生产力工具?”
要回答以上这些问题,请先看👇:
以上视频,来自百度蒸汽机。
百度蒸汽机再次升级,即将全新上线长视频模型能力。区别于行业目前主流的通过首尾帧续写等浅层的技术方案,将实现流式的无限时生成,用户输入图和prompt,可生成任意时长的视频。
10月,百度蒸汽机还将有新发布!
敬请期待 👀 ~
百度AI连麦中第九期,我们邀请:
百度商业体系商业研发总经理 刘林
机器之心创始人 赵云峰
知名影视动画编剧 田博
(代表作《深海》《魁拔》《匆匆那年》)
一起聊聊:我们离AI电影还有多远?
AI视频到了什么地步?
为什么AI视频“做不长”?
AI长视频将如何发展?
未来,我们怎么用AI做视频?
......
来看看他们的答案:
「AI视频用一年的时间走完了电影50年的路。」
「AI视频早晚会有自己的美学。」
田博:如果我们以2024年sora作为AI视频的起点,来对比电影1895年《火车进站》的起点,电影今年已经130岁了,相当于AI视频用一年的时间走完了电影50年的路。它的进化速度非常惊人,就像一个婴儿刚出生就会跑步,甚至还会飞。
尽管AI还有这样那样的不足,比如一致性,我不太想苛责这些不足,因为我们判断AI视频的标准是固有的影视思维,但有可能不足的地方恰恰是它的特性。
电影刚诞生的时候大家也是拿来和戏剧比较,你这样不够高雅不够艺术,但是事实证明,电影走出了自己的路,有自己独立的美学,所以我觉得AI视频早晚会建立自己独立的美学。
「AI视频生成模型面临三个限制。」赵云峰:基于我对AI视频生成的模型和工具了解来看,(AI视频生成)基本上达到相对成熟的阶段,短视频是没问题的,一些专业的用户可以使用短视频的工具提高工作效率,像电影、游戏、营销或者短视频制作。
但是还是会存在很多限制,第一个是由于Transformer架构和diffusion架构天生的问题,它没有办法获取超长的上下文的窗口,没有办法对长时间的帧与帧之间的逻辑进行建模,所以就造成过去我们看到的很多模型,它的时间不够长。
第二,一致性的缺乏,比如视觉的统一性,内容的连续性,还有风格的统一,都做得不太好。
第三,它的几何结构不一致,并且有很多违背物理世界真实规律的问题。还有一些跟prompt相关,因为之前prompt天生的存在一些限制,同时对中文的理解也不够。
最后,它可能需要非常高的推理成本,用户需要一个等待的过程。
「视频生成模型不再是玩具或噱头,正在快速成为生产力工具。」
刘林:过去一年,视频生成技术井喷式发展,现在生产质量,包括实时性和交互性都有很大的提升。视频生成模型不是玩具或者噱头,它正在成为赋能千行百业的关键生产力工具。
百度做这件事,我觉得是基于百度多年的技术积累,因为我们一直相信技术能改变世界。上述三个问题我们都在解决中优化。
我们蒸汽机3月份立项,5月份已经荣登VBench全球权威的视频评测榜的榜首。我们7月初第一次正式对外发布蒸汽机1.0模型,为用户带来影视级视频创作体验,蒸汽机1.0已经能够很好地解决赵老师说的「不符合物理逻辑」和「对中文理解不够」等问题,我们通过prompt增强模型,能够很好地理解用户意图。
同时,通过多方面领先的技术,我们能实现极致指令遵循,生成的视频逻辑和质量都比较优秀。
8月21日,我们蒸汽机2.0全系4个模型发布,推出了全球首个中文音视频一体化生成模型,在生成电影级高清视频画面的同时,能够实现逼真环境音效、多人自然人物语音的同步输出。
给大家透露一下这里面核心的技术点,首先包括有声视频中,语音、唇型、表情、动作的毫秒级精准对齐。
第二点也是非常难的一点,我们除了做单人的有声生成之外,我们也会做多人有声的生成,我们区分每个角色在什么时间点有谁开始说话,在整个情感、互动逻辑和角色的编排上做了非常多工作。刚才讲到中文场景,我们对中文场景做了非常深度的适配,超过98%地精准还原中文语音的细节和情感表达,因为我们是全球最懂中文的模型。
最后是运镜,在我们优化模型的过程中,大家对丰富的运镜需求提得比较多。原来的推近推远已经不能满足我们的需求,现在我们有数十种专业的镜头语言,能很好地响应大家的文本指令。
为什么AI视频“难做长”?
「不光AI,人类生成长视频就很难。」
田博:不光是AI,人类生成长视频也很难。人类对视觉的感知也有一个二八定律,两秒钟才能看清楚,八秒钟就不耐烦,所以长不是最大的难点,信息密度才是难点。
长视频的需求空间、商业想象都非常巨大。因为人人都爱八卦,爱聊天爱说故事。《人类简史》说我们人类打败狮子老虎不是我们比它们更强,而是我们会交流会协作,讲故事是人底层的本能,只不过以前讲故事更多的是口头语言和文字。
现在手机加上网络,很多人举起手机来拍自己的故事,几乎对于其他的艺术形式是一种碾压式的爆发,我管这个叫第一次赋能,我相信AI视频是第二次赋能,如虎添翼。
「现在的长视频存在严重供需不平衡,一定需要AI生成长视频工具出现。」
「从短视频到长视频代表着这个产品或整个产业链条从碎片到完整。」
赵云峰:现在长视频存在着非常严重的供需不平衡,因为长视频的制作成本太高了,不是大家不喜欢看长视频,因为它的制作成本远远超过收益,很多有创意的人没有办法把自己的知识转化成长视频给到用户,我们一定需要AI生成长视频工具的出现。
目前的短视频工具只能起到一些辅助的作用,帮助那些专业人士生成一些demo,做一些灵感的验证或者尝试。离真正大规模的使用还有一个gap,这个gap就是AI生成长视频工具的出现。
从短视频到长视频是碎片完整的过程,一方面是内容的碎片到完整,几秒到完整的故事。同时也代表这个产品或者整个产业链条从碎片到完整的过程。
「蒸汽机将实现无限时长生成的能力,用户只需要输入图和prompt就可以生成任意时长的视频。」
刘林:目前来讲,非常好用的长视频生成的工具还是比较稀缺,如何让用户通过AI直接生成比较长的长视频,对于模型的理解和生成能力要求都比较高。
大部分用户还是需要一些更长视频的工具帮他去生产、提升他们的制作效率。视频越长,整个理解、包括色彩的丢失甚至崩坏(的概率)确实是在的,这里面涉及到做长视频的技术选型遇到的问题。
在这次连麦中,我们正式官宣,蒸汽机最新上线了长视频的模型能力,而且我们今天上线的长视频模型能力要区别于目前主流的通过尾帧的倒放正放的续写,或首尾帧连续的生成。
我们蒸汽机实现的是通用流式生成的能力,用户只需要输入图和prompt就可以生成任意时长的视频。并且,区别于首尾帧续写每个镜头都要输入图和Prompt、往往一段几十秒视频需要10组左右图+prompt的复杂操作,蒸汽机流式长视频生成能力只需要输入一张图+prompt,操作门槛更低。
「自回归+扩散模型架构,优缺点互补,打破误差积累的影响,保证视频一致性。」
刘林:我们知道之前大家更多的在图生视频里都用扩散模型、DIT模型,市面上大家更多的是生成5秒和10秒,为什么不能更长?
因为你会发现这个技术方案,对于再去生成更长的视频,对于成本,对于硬件的要求挑战非常大。大家尝试着用自回归的方式去生成视频,但是自回归也有它自己存在的问题,就像赵老师说的,随着时间长,会出现很多累积误差,不断地积累,有其他的问题。
所以我们提出了自回归+扩散的模型架构,各自优缺点互补,还有其他的技术引入,使得整个视频在生成过程中既能打破误差的积累带来的影响,又能保证一致性,这是非常重要的一点。
除此之外,生成长视频对成本要求非常高,蒸汽机这一块做了非常大的改进,我们通过整流技术使得模型更高效地生成。
另外我们不太能接受等太长时间,无限时长长视频的生成,在整个效率上,蒸汽机都做了非常好的解决。
「10月中旬,我们将发布可实时交互的长视频生成,包括可交互数字人、可交互VR/AR视频内容和游戏世界的视频生成。」
刘林:AI 生成视频在未来将会有更高质量、更迅猛的发展,未来将会通过技术突破和产业应用,提升生产效率、激发创意,在成本控制和体验升级等多维度重塑行业生态。
首先是在技术创新层面,AI 视频生成技术将实现从 “片段式创作” 到 “完整叙事” 的跨越,也就是我们前面提到的长视频生成,其中单帧画质也将无限接近专业级,动态流畅度也会持续显著提升。
同时,未来会是多模态融合深入发展的情况。新一代工具将支持 “文本 + 图像 + 音频” 等更丰富的混合输入方式,并且与 AR/VR 结合,打造沉浸式交互体验。模型将更好地模拟物理规律,人物不再僵硬机械、更像真人,场景不再是一眼假的“5毛钱特效感”,生成内容会更贴近真实世界。
同时还能实现实时生成,比如在一些直播、虚拟会议、游戏画面、视频通话、摄像头拍摄、VR/AR 内容创作等多种场景下得到创新应用,使 AI 视频生成能够更好地满足实时性需求。
其次是在产业应用层面,比如在影视行业中,(AI视频生成技术)将加速影视制作的工业化转型,承担从分镜设计到后期渲染的全流程,重塑影视行业的生产链条,使中小团队也能制作高质量影视作品。
再比如,在教育与培训行业实现沉浸式革新,AI 视频生成技术可模拟复杂操作流程,为在线教育提供虚拟助教,支持多语言教学与个性化辅导,推动教育从 “单向灌输” 向 “交互式体验” 转型。
还有就是商业与营销的个性化实现爆发,广告行业将成为 AI 视频生成的主战场,使用AI 工具不仅使单条品牌或营销视频制作时间大幅缩短,企业也可通过数字人形象与用户实时互动,提升转化率等,正在做到像与真人交流一样。
那这也是百度蒸汽机正在努力探索的方向。在这里,我也小小预告一下,预计10月中旬,我们将会发布可实时交互的长视频生成,包括可交互数字人和可交互视频类VR/AR视频内容、游戏世界的视频生成。
同时,我们还将打造Agent创作流的体验,用户通过一句话提示词描述视频创意,Agent深度思考、自动生成剧本、拆解分镜、生成分镜图并调用蒸汽机模型完成一站式丝滑的视频成片创作。
田博:我觉得未来看到AI电影是必然的。我会去看,题材我也都OK,我喜欢所有真心的表达。我觉得做一个90分钟到120分钟时长的电影今年就可以,(AI电影还没出现)不是技术的限制,是市场需求。
赵云峰:我觉得(今年内看到AI电影)从AI技术的角度来讲肯定可以实现,这源于对AI技术的信仰。当然可能需要一些阶段性的各个突破,降低计算资源和开销。
从一个深度的电影爱好者角度来看,AI有没有能力拍出来并不是核心,核心它只是一个工具,核心还是这个电影背后的导演或者那个人他自己的创意,故事、剧情、拍摄手法等等。
我们也期待有才华的导演联合更强大的AI他们共同创作出品电影。至于哪些题材,过去的题材都是基于人类导演和用户进行划分。我非常期待AI能不能像我过去喜欢的电影大师一样,创造出一种全新的题材或者全新的电影形式。
刘林:作为一个AI从业者,如果从大模型的能力角度来讲,生成精美的视频片段,去实现大家的创意表达上,这个目前来讲都是可实现的。而且在接下来的几个月甚至一年之内,会发展的非常快。
创意上,我可以生成一个很长的片段,但不一定大家都看,因为不一定喜欢。大家去看电影,一定希望是有意思的、有创意的。模型要和(影视)专业人员配合,甚至不断学习专业人员的能力,在这个过程中更多提升辅助能力的占比。
技术本身,我们怎么让模型不断的朝着我说的点去做,还有很多要提升的点,包括模型本身更长程度一致性、稳定性,这些都要做。同时保持角色、场景等更长时间的一直,一定得去突破。如果我们不能做到一致性都ok,我们也要支持更灵活,让专业人员做修改和调整。
「未来可能没有“非专业创作者”这个词。」
「AI也可能产生很多垃圾,但每个人都有表达的权利。」
「技术的核心主张就是要服务于人。」
田博:未来可能没有非创作者这个词,非专业这个词好像对应的是专家,但是AI最好的一面是消除所谓非专业和专业的壁垒,无论这个壁垒是学院派小圈子的或者是资本的壁垒。
未来只有一个壁垒:你有没有真心想说的话。如果你有,做AI视频吧。做AI视频不用混圈子,也不用抱谁的大腿,不需要和剧组交流,不需要很多钱不需要很贵的设备,而且AI明星也不会塌房,AI能消除所有和真心表达无关的环节,没有中间商,
但是做视频,讲故事的叙事技术和视听语言肯定要学习,未来有没有这个影视行业我不确定,但是一定有说故事的人
赵云峰:我一直觉得AI和人之间的关系,应该是教练和运动员的关系,AI是教练,人是运动员。不管怎么样,你需要自己提升,再通过外部给你一些指导或者训练,你自己可以变得更好。
对于AI创业者也一样,对于普通人来讲或者非专业人来讲,我们不可能幻想AI让自己躺平,首先要提升自己的专业能力,即便AI能生成长视频,但是考验的还是你自己对于故事,对于剧本的认知。
对于AI拍电影也一样,我们现在不是说电影数量太少,我觉得电影的数量太多,“烂片”的比例高。我希望有了AI工具以后,我们把原本非常有才华的导演的宝贵时间释放出来,让他们更好地去创作,降低他们比如去搞资源、搞定制片人等等和自己才华创作无关的工作,从而让我们可以看到更好的电影,同时可以让烂片的导演被取代。
田博:“烂片”也是有存在价值的,AI也可能产生很多垃圾,每个人都有表达的权力。
刘林:蒸汽机希望对大家的表达高效地赋能,把之前只是在脑海中想象的画面以作品的方式呈现出来。回想蒸汽机诞生之初,我们来源于业务需求,来源于人,技术的核心主张就是要服务于人。
我们千行百业,非影视创作者的行业,比如小说、营销等领域,大家都非常需要和AI未来更好地交互。我被问过好多回,AI会不会取代人,我觉得AI会驱动大家自己做转型,更好地和AI做互动,更好地让AI表达自己的想法,把自己的能力外显出来,创造能力、创造价值,创造思想的火花,这对非专业人员、专业人员都一样。
我们只有以人为主、AI为辅,才能推动AI赋能内容生态持续健康发展,希望蒸汽机在里面发挥更大的价值。
来源:伊说说