摘要:这个小互动很能说明问题:相比过去两年,如今AI生成视频的技术已有了质的飞跃。借助扩散模型的逐帧优化和NeRF技术的3D场景构建,生成内容的连贯性和真实感大幅提升。连专业媒体人都难以分辨,足以证明技术进步之快。
上周我赶赴北京新闻广播,做了一期关于AI生成视频的节目。
我们讨论的核心问题是,当前人工智能生成视频的技术已发展到何种程度?是否已能实现以假乱真?
为了直观展现这一技术现状,我和主持人设计了一个小互动环节。我拿出来手机,给她展示了三段视频,请她分辨其中哪些是实拍内容,哪些是AI生成的。
图注:你们猜猜哪个是AI数字人?
主持人认真观察后,给出了答案,我告诉她完全错误。她当时十分震惊,坦言道:“咱们认识这么久,我居然没看出来这是你的数字人。”
这个小互动很能说明问题:相比过去两年,如今AI生成视频的技术已有了质的飞跃。借助扩散模型的逐帧优化和NeRF技术的3D场景构建,生成内容的连贯性和真实感大幅提升。连专业媒体人都难以分辨,足以证明技术进步之快。
这也正是我们今天探讨这个话题的必要性所在——当AI生成视频的逼真度达到如此水平,其技术影响与应用边界都值得深入关注。
那么,AI生成视频到底将应用在哪些领域?未来我们将如何厘清AI生成视频和现实创作的边界?人机协作的范式应该是怎样的?
针对这些话题,我们展开了较为深度的对谈。以下是对谈干货整理,今天也分享出来,供大家参考。
1、主持人:近年来,AI视频生成技术的发展令人瞩目。请您先为我们讲讲,从技术层面来看,目前AI视频生成取得了哪些重大突破?
丁道师:简单来说,这两年的突破,主要在于对真实世界的理解。
举个简单的例子,以Sora为例,有人咬了一口面包,面包上出现了咬掉的缺口,而之前的视频生成工具不具备这样的理解真实世界的能力。吃一口面包,面包缺了一块角,这就是咱们真实世界的物理规则,现在居然被Sora理解并且呈现了出来。
再举个例子,当你扔一个球时,它会沿着一个抛物线轨迹飞行,并最终落地。Sora可以模拟这个过程,考虑到重力、空气阻力以及球的初始速度和角度。这是以往的同类型产品,所不具备的。
技术层面的变化,带来了应用场景的突破。举个例子,去年央视推出了国内首部文生视频AI动画片《千秋诗颂》,引发了巨大关注。在同等预算条件下,按照传统动画制作流程计算,制作《千秋诗颂》至少需要8个月时间。而在我国自主AIGC技术支撑以及总台海量视音频的语料库助力下,依托大模型,该片的制作周期缩短至4个月。相较于传统动画制作,大大提升了制作效率。
还有现在热门的一个赛道--短剧,也开始大规模用AI参与制作了。
2、主持人:在生成较长时长的视频时,AI 常出现内容不连贯、逻辑混乱等问题,AI幻觉在视频生成上可能更明显,您认为当前阻碍 AI 视频生成进一步发展的最大技术难点是什么?是模型的训练效率、对复杂场景和动作的精准模拟,还是其他方面?
丁道师:确实,AI如同人类一样,它也会出错、出现工作懈怠,结果具有一定随机性。这就要求我们学会管理AI,以应对未来的无限可能。
关于AI生产视频的技术难题,如果在以前,我们会说训练效率的低下限制了模型对复杂场景的学习能力,复杂场景的高维度需求又反过来加剧了生成效率与质量的矛盾,同时还存在 “时空一致性”“语义逻辑” 等更底层的技术鸿沟。
现在看来,问题只剩下了一个,那就是“时间”。随着时间的推移,我们现在看到的诸多问题,都会解决。而且这个时间不用特别久,AI生产视频的能力几乎每个月都在以肉眼可见的速度提升。
3、主持人:从百度“蒸汽机”、字节跳动即梦、快手可灵AI,到智谱清影、生数科技Vidu、MiniMax海螺AI,互联网巨头与初创企业都相继布局AI视频生成模型。还有在电影工业中的应用。快手上个月发布财报显示,可灵AI的收入在二季度超过2.5亿元,相比一季度大幅增长。而且可灵比一众大语言模型更早在国内跑通付费模式。您怎么看AI视频生成的商业变现能力?
丁道师:AI 视频生成商业变现的核心逻辑在于两点:第一,它能否比传统视频制作大幅提升效率;第二,它能否实现比传统视频制作更高的品质。
从第一点来看,AI 视频生成在效率上的优势已毋庸置疑,提升幅度远超传统方式;但第二点 “品质更高”,目前仍需打个问号。不过当下的趋势是,效率优势在不断强化,而品质不足的难点也在逐步解决。综合这两点来看,AI 视频生成已具备大规模商业变现的可能性。
那么未来哪些领域会大规模应用 AI 生成视频呢?
第一个领域是影视制作,涵盖长视频、短视频及短剧制作。这不仅是大型公司的机会,比如央视之前制作的《千秋诗颂》,河南也正计划用人工智能制作《愚公移山》相关长电影,目前预告片已经出来;许多小型公司、小团队(此前提到过不少专注短剧制作的),也已在大规模使用付费 AI 软件制作相关视频。
第二个重要领域是游戏与动漫。游戏制作向来耗时漫长,而如今即便是大型 3A 游戏制作中的 CG 动画、各类交互动画,都可借助人工智能生成,至少能通过 AI 进行辅助制作。
这里我再补充一个案例:去年我在上海出差时,曾在一场活动中见到知名导演陆川,当时他就明确表达了对用人工智能制作电影的浓厚兴趣。这一细节也从侧面说明,专业影视制作领域已开始尝试 AI 技术的应用。
一旦影视娱乐、电子游戏、动漫,以及我们日常的创意营销、广告制作等领域,都开始大规模使用 AI 生成视频,那么这个领域的商业变现空间,将远超当前呈现的规模。现在我们觉得快手某季度 AI 相关业务营收 2.5 亿元已是了不起的成绩,但三年后再看,这个数字后面加个 0 可能都不止。
4、主持人:随着AI视频生成技术的普及,辨别视频真假成为了重要课题。在图像和视频分析中,有哪些特征或指标可以作为判断视频是否由AI生成的依据?在日常生活中,没有专业工具的情况下,如何通过一些简单的方法来初步判断视频的真实性呢?
丁道师:截止今天,人工智能生成的视频其实还是比较容易识别的。其动作画面整体仍存在一定的生硬感与粗糙感,甚至会出现一些基本的常识性错误。
举个例子,前段时间某品牌生成的AI图片中,花生被画成生长在地面上,但实际花生是生长在地下的,这明显违背了基本的科学常识。再比如在细节方面,其精细度不足:比如绘制的人物形象,可能存在畸形的情况,或者出现七个手指头;又或者在画面动态展示时,人物的头发、衣物等会突然消失,诸如此类。
目前,这类AI生成视频其实还是比较容易识别的。但正如我们之前所讨论的,随着时间的推移,未来AI技术必定能生成足以以假乱真、肉眼无法识别的内容。届时,不仅肉眼无法分辨,甚至可能无法通过工具识别,这将是一个巨大的挑战。因此,相关的监管措施必须及时跟上。
5、主持人:相应的监管如何跟上呢?
丁道师:从今年9月1日起,由国家网信办、工信部、公安部、广电总局联合制定的《人工智能生成合成内容标识办法》正式落地。
敲重点。
第一、以后AI生成的各种东西,像文字、图片、视频等,都得 “亮明身份”,会加上明显或暗藏的标识,让大家知道它是AI造的。
第二、不管是做AI内容的平台,还是传播这些内容的平台,都有各自加标识、核验标识的责任,一环扣一环规范 AI内容传播。
第三、要是没按这办法来,网信、电信、公安、广电这些部门会按各自职责,依据相关法规处理。
从制作到传播,再到相关处罚,都明确规范了AI生成内容的规范,以后那些用AI生成的内容,都会标注类似“本文/本图/本视频涉及人工智能生成内容,请仔细辨别”这样的提示,这一标注可能十分醒目,让观众一眼就能识别,避免被误导,明确所看内容并非通过传统拍摄、写作等方式产出。
6、主持人:您对AI视频生成的未来发展有哪些展望?
丁道师:我期待的,是一种“人机协同”的模式。既不否定AI的价值,也不让AI掌管一切。
应构建这样的平衡机制。创作前期,人类主导创意构思,确定故事内核、人物设定与整体风格,AI提供创意启发与素材参考;创作中期,AI快速生成初稿、分镜等,人类把控质量,对情节逻辑、情感表达等进行优化;创作后期,人类审核内容,确保合规与文化价值,AI辅助完成剪辑、特效等基础工作,以此实现人机优势互补。
来源:丁道师