摘要:这些模型生成的视频不仅清晰流畅,还几乎真假难辨,无论是模拟真实世界还是动画风格,AI都能轻松胜任。Netflix 甚至在新剧《永恒宇航员》中大规模使用 AI 特效,标志着这一技术首次进入主流影视制作流程。
最近几个月,AI视频生成技术迎来爆发式进展。OpenAI 发布了 Sora,Google DeepMind 推出 Veo 3,Runway 的 Gen-4 也上线了。
这些模型生成的视频不仅清晰流畅,还几乎真假难辨,无论是模拟真实世界还是动画风格,AI都能轻松胜任。Netflix 甚至在新剧《永恒宇航员》中大规模使用 AI 特效,标志着这一技术首次进入主流影视制作流程。
更惊人的是,这项技术已走进普通用户的手中。只需在网页或 App 上输入一句提示,比如“生成一只独角兽吃意大利面”,几秒钟内就能生成一段短视频。虽然生成效果偶有波动,但创作门槛的大幅降低,已经让内容创作进入一个全新阶段。
不过,许多用户也发现,AI视频生成不仅效果不稳定,而且非常耗能。这背后的原因,要从它的核心技术说起。
目前主流的视频生成模型采用的是“潜在扩散Transformer”的结构。扩散模型的原理可以类比为“复原雪花图”:先把一张清晰的图像逐步加入噪点,直到变成无法辨认的像素,再训练AI反向“去噪”,一步步还原出清晰图像。
输入一句提示词后,比如“独角兽吃意大利面”,模型会从一张随机噪声图开始,在语言模型的引导下“修复”成符合描述的图像。视频生成的原理类似,但复杂得多,因为它要生成的是一组连续画面,且每一帧之间必须保持连贯。
为了降低算力压力,研究者采用了“潜在扩散”技术。也就是先将画面和文字压缩进一个低维“潜在空间”,只保留关键信息,再在这个压缩空间中逐步生成,最后解码还原成视频。过程就像在线视频播放:压缩、传输、解码,效率更高,但仍比图像或文字生成更费资源。
为了避免视频出现“人物瞬移”或“物体消失”等问题,OpenAI 在 Sora 中引入了 Transformer 架构。它本是用于处理长文本的技术,如今被用来理解视频中各个时间片段之间的关系。模型将视频分成一个个小的“立体片段”,用Transformer确保它们之间逻辑一致,从而大幅提升画面连贯性和生成质量。这种方法也成为当前业内的主流。
DeepMind 的 Veo 3 实现了AI视频生成的一大突破:不仅能出画面,还能同步生成对白、环境音和背景音乐。这意味着AI视频终于走出“无声时代”,开始具备完整的视听表达能力。
音画同步的难点是如何让嘴型、对白、背景音节奏彼此匹配。DeepMind 的解决方案是:将音频和视频一同压缩进同一个潜在空间,再同步解码生成。这样可以确保画面和声音节奏一致,提升观感真实度。
令人关注的是,扩散模型和传统语言模型的界限也正在模糊。今年夏天,DeepMind 表示正在开发基于扩散模型的新型语言模型。虽然扩散模型在视频生成中能耗高,但其架构本身比Transformer更高效。如果扩散技术能成功用于文本生成,未来的AI模型可能会更节能、更适合多模态任务。
虽然AI视频生成技术发展迅猛,但它也带来了新的挑战。内容创作者面临越来越多“流水线式”AI内容的竞争压力,社交平台也开始被伪造视频充斥,真假难辨。而且,生成视频的能耗远高于生成图像和文本,如何提升效率、降低资源消耗,是下一阶段的关键问题。
AI视频生成正从实验室走向大众,从辅助工具变成创作平台。它让创意更自由,也让内容创作更卷。理解它、善用它、把握它,是每一位创作者和用户必须面对的全新课题。技术正在飞速前进,我们也需要用同样的速度,去学习和适应。
来源:小何说历史