杀疯了,百度蒸汽机上线AI长视频生成功能,打破“5秒魔咒”

B站影视 日本电影 2025-09-25 21:58 1

摘要:“多人对话音视频一体化生成”大模型百度蒸汽机(MuseSteamer)今日再次升级,重磅推出通用AI长视频生成功能,支持用户生成“无限长度”的AI视频。

【TechWeb】9月25日消息,“多人对话音视频一体化生成”大模型百度蒸汽机(MuseSteamer)今日再次升级,重磅推出通用AI长视频生成功能,支持用户生成“无限长度”的AI视频。

此次升级有两大亮点:

1、 突破大模型生视频时长5s和10s的限制,可以生成任意时长视频;

2、 在视频生成的过程中用户可以随时更新提示词(prompt)进行后续视频的交互式生成。

现在,借助百度蒸汽机视频生成模型,用户仅需输入一张参考图和一段文本描述,即可直接生成具备电影级质感、包含多人对话与精准口型同步的无限长度视频内容。

先看看官方放出的百度蒸汽机生成的长视频效果:

30s视频

超1分钟视频

业内首次 流式生成技术“无限”生成长视频

针对此次升级,9月25日17点,百度商业体系商业研发总经理、蒸汽机业务负责人刘林与知名影视动画编剧辑田博做客百度直播间现场连麦,首次对外讲解产品亮点与技术细节。

刘林强调,本次百度蒸汽机大模型升级一举打破了此前AI仅能生成5秒、10秒短视频,或依赖首尾帧控制续写时长的局限,采用流式生成技术实现了在通用长视频上的“无限”生成能力,在行业尚属首次。

同时,百度蒸汽机首创的生成中“可交互需求”,即生成中可提交prompt。这意味着,用户在生成过程中可随时暂停,并基于已生成的画面提交新的Prompt(提示词)来引导后续剧情发展。

据介绍,在长视频生成技术方案上,百度蒸汽机采用自回归扩散模型,通过帧级噪声独立控制与动态时间步调度,突破了传统扩散模型在长视频生成中的限制,实现理论上无限时长的视频生成。

同时依托商业强大的工程优化能力,对模型进行极致压缩,优化主要包括模型参数压缩(大模型蒸馏小模型)、window attention降低attention过程中可见序列长度、步数和CFG蒸馏等策略,不断降低推理耗时,最终实现几乎实时性效果。

最终使得升级后的百度蒸汽机大模型实现通用AI长视频生成能力。

AI生成视频打破了长度的限制之后,进一步降低了视频创作门槛,能生成更完整更优质的内容,助力创作者的生产和变现。同时,对企业用户、影视及广告等行业来说,AI长视频生成大幅降低了视频生产成本,创造出更多应用和商业化空间。百度蒸汽机生成视频能力已经广泛应用于百度客户的营销创意中。

在田博看来,AI生视频用一年的时间,差不多走完了电影50年的路,进化速度惊人。现在,是编剧和渴望表达的人的春天,AI生视频给创作者带来了无限想象空间。

蒸汽机月月有惊喜

当前的AI视频生成领域正处在一个技术快速迭代、应用场景不断拓展的关键阶段。无论是大厂还是初创公司,都在通过不同的路径推动着整个行业向前发展。

事实上,作为全球首个中文音视频一体化视频视频生成模型,百度蒸汽机大模型自推出以来,可谓月月给用户带来惊喜,更是被业内用户爱称为“争气机”。

今年3月,蒸汽机(MuseSteamer)大模型首发,5月即登上 VBench-I2V图生视频榜榜首。

在7月,蒸汽机 Turbo版大模型及面向C端用户的创作平台“绘想”上线,作为全球首个实现中文音视频一体化生成的视频模型,蒸汽机可实现画面与音效、人声台词的协同创作,支持一张图生成10 秒 1080p 电影级画质视频,人物微表情与运镜效果达专业影视水准。

该模型上线2周,注册用户量突破20万,单小时任务提交量达18,000次,累计生成内容超200万条。

8月22日,百度蒸汽机2.0完成音视频一体化升级,在行业内首次实现“多人有声音视频一体化生成”,其Turbo版、Lite版、Pro版及有声版全面开放。

知名视效指导姚骐用百度蒸汽机2.0制作出科幻短片《归途》,创作成本将至几百元,百度蒸汽机让好莱坞级大片镜头不再需要百万预算。

今天,9月25日百度蒸汽机2.0再升级,突破大模型生视频时长5s和10s的限制,可以生成有声可交互的任意时长视频,再创行业首次。

据刘林透露,百度蒸汽机还将于10月中旬进一步升级,支持实时交互的长视频生成功能,包括可交互数字人、VR/AR视频内容以及动态游戏世界的生成能力。

一起期待百度蒸汽机带来更多惊喜能力!

我们也离“随心所欲创作视频”的生活越来越近了。

来源:TechWeb一点号

相关推荐