生数科技樊家睿:AI视频生成技术如何赋能影视、动漫与娱乐

B站影视 2025-01-08 21:40 2

摘要:“岁寒,然后知松柏之后凋也。”2024年,娱乐行业迎来了更加复杂的局面。国内短剧超过电影,海外短剧超过传统影视,直播演艺超过游戏,团播秀场吸收了大量的综艺团队,一切的娱乐形式发生了翻天覆地般的交融。

作者|James

刊前语

“岁寒,然后知松柏之后凋也。”2024年,娱乐行业迎来了更加复杂的局面。国内短剧超过电影,海外短剧超过传统影视,直播演艺超过游戏,团播秀场吸收了大量的综艺团队,一切的娱乐形式发生了翻天覆地般的交融。

面对这些挑战,监制王红卫坚持刀刃向内、姚晓峰导演高呼“思变”,优酷副总裁沈严直言“平庸就是原罪”……

为此,娱乐资本论在2025年度CEIS娱乐产业年会之际推出一本专刊,与10位业内大咖展开对话,这些声音如同松柏,不仅是对过去一年的总结,更是对未来的自省。让我们集结这些智慧与勇气,共同挑战娱乐行业新春前的寒冬。

在经历了2023年ChatGPT横空出世带来的“炸裂”“颠覆”“革命”等精神冲击后,娱乐行业逐渐找到了如何参与AIGC浪潮的一些门道,其中“文生视频”是AI与娱乐业结合最紧密的一个案例。

今年春节期间,Sora放出演示视频,给影视和广电行业投下震撼弹,没想到最后却是“起个大早,赶个晚集”。可灵、Vidu、清影、海螺、即梦、通义、混元等AI视频生成产品的涌现和竞争,标志着视频生成领域最终是国内率先占据了领先地位。

在国内,早期AI艺术家在文生图时期,就开始探索动态漫等形式的能力整合。在视频生成模型出炉后,他们更是率先探索全流程的AI影视作品。模型开发商也跟著名导演、影视平台等合作,加速促进技术与产业的融合。相对好莱坞,国内影视从业者对技术的态度总体上也更开放,进一步加速了国内视频模型“弯道超车”。

生数科技在今年4月就发布了长视频大模型,7月上线视频生成工具Vidu,是视频生成模型的行业代表之一。它也和《毒液:最后一舞》、《熊猫计划》等影视作品展开官方合作。

生数科技投融资负责人樊家睿对娱乐资本论表示,影视行业对视频生成的清晰度、可控性、一致性有极高的要求,而Vidu的一大优势就是视频生成的一致性。公司正在积极帮助影视、动漫和互联网娱乐等行业客户满足专业需求。

娱乐资本论:请简单介绍一下生数科技Vidu的主要特色。

樊家睿:Vidu视频生成模型今年4月发布,7月面向全球上线。它是“中国首个长视频生成模型”,“全世界首个对标Sora的成果发布”。

如何保持视频生成内容的一致性,一直以来都是专业创作者的核心痛点。而Vidu是全球最早陆续突破面部一致性、主体一致性、多主体一致性的视频模型。

Vidu生成速度也是极快的。行业平均生成一段4秒钟的视频需要3-5分钟,Vidu生成同样时长的视频只需不到30秒,并会进一步实现量级性的提升。

Vidu也可以更准确理解并遵循您输入的指令意图,根据提示词进行完整的视觉呈现,生成的内容创意性十足。

娱乐资本论:您提到Vidu的视频一致性特点,是否有更通俗的解释?

樊家睿:Vidu能够实现对主体的精确控制,这个“主体”不仅可以指面部特征的一致,也可以指衣服、背景的一致,而且在任何角度下都不变形。

Vidu在上线之初,仅通过一张参考图,就可以实现人物的面部轮廓一致。9月,进一步将面部一致拓展到发型、衣服、整体形象的一致,再将人物的一致拓展到动物、商品、虚构角色等的一致。

11月13日的升级后,Vidu涌现出了“多主体一致性”的新能力。用户可以用多张图指定多个“主体”,也可以提供一个主体的三视图。还有用户的玩法是,把很多个不同角色的三视图拼起来,拼成三张图,再输入进去。

用户可以自主决定多个角色的形象、穿着及动作,并将固定角色投放到新场景中,实现灵活多变的故事发展,同时生成的每个角色都不混淆,不变形。

“多主体一致性”既意味着可以“多人表演”,更可以指定背景板、环境等跟用户参考图的一致。这种灵活的任意组合,多主体的融合与交互,是全球首次实现。

例如在文旅场景,把人放入特定景点“打卡”。此时人的特征不变,人穿的衣服不变,同时环境特征也不变,文字、数字、标识等都是不会乱码的。这就极大地降低了编辑和修改成本,甚至有可能一次性生成效果就非常好,不用多次“抽卡”再拼到一起。

这个多主体一致性功能,未来可能会扩展到更抽象的层面,像艺术风格的抽离与再现、音色声音的捕捉与重现、拍摄手法的学习与复刻。比如生成一段“某某艺术家风格”的视频,它连艺术手法与拍摄技巧,都可以“学习领会”。

娱乐资本论:生数的商业化进展和典型客户案例有哪些,特别是在影视娱乐业?

樊家睿:很多新需求都来源于老场景。对于有的传统行业,新技术与新内容是可以很好地解决困扰它们多年的问题的,而互联网娱乐业显然属于此列。所以,在9月末B端商业化开展以来,生数迅速扩展了泛互联网娱乐行业的客户版图。

国内知名的厂商、出海产品,和源自海外的团队,都主要通过调用Vidu API的方式来接入我们的视频生成能力。在追求爽感的互联网娱乐特效玩法上,主要要求是:生成速度快、动作自然流畅、人物一致性要保持好。

我们的视频生成技术让客户非常满意,它们现在终于有条件做视频版的“拍立得”、定制贺卡、穿越时空交互等等场景了,这是以前的技术条件下难以想象的。

同时Vidu也迅速拓展了广告营销、影视、动漫类的标杆客户,它们要求很高,但我们可以提供高效、高质量的视频生成。

在7月末发布Vidu的C端产品以后,专业和半专业创作者可以通过订阅、买积分等方式,将Vidu融入自己的AI视频工作流。免费用户也有试用积分,可以完整体验相对于付费版“不打折扣”的能力。

我们观察到,无论专业程度如何的用户,都在积极拥抱AI视频生成技术,活跃地使用Vidu,他们的反馈是我们不断提升产品和服务质量的重要依据。

Vidu上线第一天就是面向全球发布的。从总体用户量、视频任务生成量、社媒转发量等指标,都能看到市场的积极反响。许多基于Vidu创作的视频一发布就爆火。来找我们的海内外专业团队和企业也有很多了。

AI视频生成技术门槛更高、付费价值更大、商业化场景更广泛。我觉得它的商业化能力,在未来相当长的时间内都是非常强劲的,更有可能从中诞生新时代的内容平台。

娱乐资本论:具体地说,Vidu如何帮助影视、动漫和互联网娱乐等行业?

樊家睿:一些场景的正片现阶段更多是与AI混合拍摄,替代其中特效、空镜、补镜内容的工作。大银幕方面,我举两个合作案例。一个是今年9月,Vidu与猫眼娱乐合作,在国庆档电影《熊猫计划》中,为主角熊猫“呼呼”的官方账号生成每日发布的视频,比如熊猫吃竹子、互动玩耍的画面。

相比传统动画制作更长的周期,现在社交媒体可以做到视频“日更”甚至“小时更”,而这只需要几张“呼呼”的照片就可以。在国内的院线电影中,生数科技也是第一个与影片官方合作的AI视频生成技术支持单位。

在今年10月,我们和索尼中国、布乐科技合作,完成了《毒液:最后一舞》的AIGC电影宣传片。这是全球首个国际知名IP与艺术家全链条授权的AIGC生成式短片、国内大模型与国际IP首次商业合作、也是漫威宇宙首个中国水墨风格AIGC宣传片。

该片的制作用到了Vidu首尾帧功能,来实现“毒液”基于中国水墨画风的千变万化。AI有随机性的美感与创造力,许多变换过程让传统技法的创作者叹为观止。该片全部的素材,仅用1.5个人在2天时间内就全部生成完成,10天内完成了全片制作,大大提升了整体制作效率。

娱乐资本论:影视行业用户与其他行业用户相比,需求上有何特殊性?

樊家睿:影视行业的特殊性在于,对输出高清、可控性强、一致性好、细节丰富的高质量视频内容有严格的要求。我们已经实现了一部分,在努力满足更多这些需求。

目前各家在生成清晰度上都有所突破,手机端用户1080P的直接需求可以充分满足,PC端也可以通过超分等办法实现更高分辨率。而要想直出银幕级的视频效果,现在还有段距离。当然也看这类场景需求有多迫切、市场有多广阔,我们会根据行业真实需求,来调整我们迭代的优先级。

娱乐资本论:假设我是一家影视公司的决策层,如何说服我尝试和选择Vidu?

樊家睿:其实现在有一点是肯定的:与文字聊天不同,视频效果的好坏非常直观,一目了然,让Vidu专业团队根据影视公司需求来演示一下实际效果,就知道行不行、哪里行、哪里不行。

我们也已经对接过很多机构和行业专家,倾听了他们的意见和诉求。Vidu拥有一个专业的美学创作团队,成员们兼具深厚的艺术创作经验和对AI技术的前沿理解。

客户跟Vidu团队沟通以后,通常能明确AI的技术边界在哪,也就是行不行、哪里行、哪里不行。现在不行的地方,我们也会最快速度给反馈、并优化升级我们的模型。

跟去年相比,今年我们发现:一方面,整个市场对AI视频生成的认知都有极大提升。另一方面,我们的技术升级速度也在加快。很多几个月前、一年前觉得很困难的事情,现在可以实现了。所以,对于当下看到的一些卡点、痛点、难点,未来也有可能更快地被攻克,对这一点不妨抱有信心。

现在中国团队比海外厂家在AI视频生成领域更领先,这对于本土影视团队和技术团队都是有极大优势的,因为我们之间沟通会更顺畅、频繁、深入。我们一定会用好这个优势,更多倾听本土客户的反馈,让我们的产品更好满足中国市场的需要。

娱乐资本论:广电总局对AI魔改经典影视剧发布了指令,Vidu是否会相应做出调整?

樊家睿:我们注意到了这条新闻。在内容安全方面,我们已经有严格的审核机制,对于内容合规性一直都是满足相关规定和要求的。

娱乐资本论:你们对2025年有什么展望?

樊家睿:我们预计Vidu在生成速度、多元一致性和多模态真正融合方面会有重大突破。

生成速度方面,Vidu将进一步“逼近极限”。把速度提上来,意味着把性价比提上来,AI视频生成会更普及、更高效。

多元一致性方面,除了已经实现的单主体-多主体一致之外,我们还会提炼更抽象的艺术风格、手法、技巧上的一致,让每一次视觉输入都能被完整学习、精准重现。

此外,视频与音频、3D等多种模态更通用的一致性表达,可以让产品更好用更丰富。简单说,就是你的“提示词”将不再只是现有的文字和图像。

更进一步讲,可以期待一下AI视频的延时交互,乃至实时交互。当生成视频所需的时间,比你做出来的视频时长还要短的时候,用户看AI视频,跟缓冲一段网络视频,从体验上就分辨不出来了。

未来可能不再需要点击“生成”按钮,话还没说完,视频内容已经生成出来了,并能永续。所见即可生,所思即可在,所想即可感。大家可以想象一下哪些新应用、新场景、新品类将被解锁出来,这有可能是AI视频生成的“iPhone时刻”。

来源:让娱乐颖动而出

相关推荐