前沿编译|好莱坞的新篇章:生成式人工智能的崛起与应用

B站影视 2025-01-14 15:00 3

摘要:生成式人工智能(Generative AI)正以变革性的力量重塑好莱坞,为娱乐行业的创意流程和分发模式带来深远影响。从概念艺术到面部替换、视频生成,再到AI配音,这些工具在提高效率、激发创意和扩大规模方面展现了巨大潜力,正在成为制作工作流程中不可或缺的一部分。

生成式人工智能(Generative AI)正以变革性的力量重塑好莱坞,为娱乐行业的创意流程和分发模式带来深远影响。从概念艺术到面部替换、视频生成,再到AI配音,这些工具在提高效率、激发创意和扩大规模方面展现了巨大潜力,正在成为制作工作流程中不可或缺的一部分。好莱坞知名行业媒体《综艺》去年发布了名为《好莱坞生成式AI进展特别报告》,影视产业观察编译了其中部分精华内容,供业界参考。


生成式AI与创意表达的结合


1 概念艺术


在概念艺术创作中,生成式AI的应用逐渐增加,但范围受到限制。概念艺术包括角色、场景、建筑、服装和道具设计,尤其在奇幻、科幻和动作项目中需求较大。传统上,艺术家依赖图库、影视参考或网络图片,而AI图像现在被用作创意起点,为设计提供初步参考。然而,大型制片厂出于版权风险考虑,通常限制AI图像作为最终艺术作品的使用。


AI图像还用于加速创意反馈流程。在最终素材渲染前,生成式AI可通过压缩将传统需要数天甚至数周的反馈周期至一天内完成。一些制片厂直接使用AI生成的图像向VFX团队传递设计概念,而无需通过文字描述。此外,这类AI图像也开始用于提案材料(Pitch Deck),这可能在一定程度上取代艺术家的部分工作。在影视项目立项前的“蓝图阶段”,制作人通常需要与艺术家合作开发项目的整体风格和世界观。现在,制作人可能使用生成式AI工具替代部分艺术家完成提案材料,从而减少聘用人数。


尽管应用广泛,生成式AI仍面临诸多争议。版权风险是最大的阻碍,此外,AI生成图像的质量也存在局限。虽然表面看起来不错,但AI图像往往风格雷同,且可能存在解剖结构错误等问题。这对概念设计至关重要,因为角色或物体的运动设计需要准确的结构参考。不合格的AI图像传递到后续部门(如道具制作或3D建模)可能增加额外工作量。


一些制片厂已要求艺术家在工作中使用AI工具,但许多艺术家对此持反对态度,认为这些AI模型是通过他们的作品训练出来的。概念艺术家可能是最早受到生成式AI影响的群体之一,他们面临着工作机会减少和伦理争议。一些艺术家报告称工作量下降,或报酬水平出现异常下滑。



2 故事板


在传统的故事板创作中,生成式AI的应用尚不显著,但相关工具正在逐步发展。例如,Lore Machine基于Stable Diffusion技术,支持30,000字的上下文篇幅和150多种微调艺术风格,帮助编剧将文字转化为故事板或动画。目前,其主要用户以品牌客户为主。一些导演和编剧也在使用Runway和Cuebric等平台制作简单的动画分镜。


然而,生成式AI故事板是否能真正满足导演和动画师的需求仍有待验证。在传统制作中,故事板艺术家需绘制脚本的关键情节或动作变化,并与导演多次协作调整镜头角度和叙事顺序。这需要可视化系统对细节有高度的控制能力。不过也有艺术家指出,故事板的核心在于清晰传达想法,而非精美渲染,“即使是简单的草图,只要表达清楚,创意胜过精致的视觉效果。”


3 场景设计


生成式AI正在改变场景设计的方式,特别是在虚拟制作的LED屏幕或绿幕场景中。如果对细节要求不高,这些工具已能满足实际制作需求。例如,Cuebric被广泛用于小成本电视项目的虚拟背景制作,能够快速生成较高质量的场景,尽管质量尚不足以支持大成本电影。


Cuebric支持根据文本提示生成场景的二维图像,也可以将草图转换为电影级渲染。用户可以选择使用Stable Diffusion基础模型或定制的微调模型。生成的图像会被自动分割为多个对象图层(如前景中的树和远景中的山脉),每个图层都可单独修改或提升分辨率。最终的场景可以导出为2.5D或2.75D深度图,精确呈现每个对象的空间距离。这些深度图可与摄像机跟踪软件(如Disguise)兼容,同时支持Unreal Engine、Unity、AutoCAD等平台的集成。



4 视频生成


OpenAI和Google推出了视频生成模型Sora和Veo,与好莱坞创意社区合作进行测试,以收集反馈并逐步扩展应用。这些模型被认为是计算机生成图形(CGI)的新阶段,但目前尚不足以取代物理摄像机或传统视觉特效(VFX)在高端制作中的作用。尽管尚未广泛用于主流影视项目,AI生成视频已在独立电影制作中有所应用。然而,生成内容的版权问题和商业分发仍存在争议,许多输出作品被视为公共领域作品。因此,这些模型当前更适合用于前期可视化,而非直接作为屏幕素材。


Sora展示了强大的虚拟摄像功能,能够逼真模拟布料、液体和反射材质,并成功突破“恐怖谷”,生成了高度逼真的普通人物形象。它还具备精准还原多种摄像机效果的能力,包括运动模糊、快门速度、镜头畸变、渐晕失真、景深等。此外,Sora能够根据复杂提示按顺序生成事件,为电影人提供了丰富的创意工具。例如,电影人Paul Trillo在测试中开发了“无限变焦”技术,通过快速镜头移动展现了复古8mm或16mm胶片的独特效果。借助这一模型,导演不仅能实现传统摄像机难以完成的镜头,还可探索完全无法通过物理设备实现的场景。



尽管视频生成模型功能强大,但质量和可控性仍存在问题。分辨率和一致性虽显著提升,但生成内容仍可能出现伪影、遮挡、变形和解剖错误。这是因为模型基于二维视频数据训练,缺乏对三维物理法则的理解。开发者认为这些问题将随着技术进步逐步缓解,但难以完全消除。此外,模型对文本提示的响应缺乏精细控制,输出结果往往不可预测。尤其在主流影视项目中,摄像机拍摄往往仍是更高效的选择。


一致性问题进一步限制了模型在复杂制作中的应用。目前,模型难以在不同提示下保持角色、物体、场景或风格的一致性。尽管开发者尝试结合图像或视频作为生成条件以改善这一问题,但语言在描述视频内容方面的不足使这一改进面临挑战。此外,模型在生成细腻的演员表演(如正反打镜头)时效果较差,某些模型对输出内容设有限制以避免生成暴力、色情或侵犯知识产权的内容。同时,生成的视频仍缺乏音频功能,但开发者正在努力整合语音和音效以弥补这一缺陷。


尽管存在局限性,视频生成模型仍展现出作为辅助工具的巨大潜力。当前,这些模型可低成本生成辅助镜头素材(B-roll镜头)、全景镜头或补拍镜头,甚至在传统方法难以实现的场景中大显身手。随着技术进步,视频生成模型有望逐步成为影视行业的重要创意工具。



5 面部置换


深度学习模型通过大量3D捕捉的演员数据进行训练,为生成逼真的视觉特效提供了支持。VFX工作室(如Digital Domain、ILM和Framestore)长期以来致力于开发“数字人”技术,近年来,一些AI初创公司也开始进入该领域,为好莱坞高质量制作提供服务。与此同时,“深伪”技术也被广泛应用于演员外貌的微调,例如去除眼袋和皱纹等。以MARZ的Vanity AI为例,该工具能够隔离特定面部区域,并自动将修改效果传播到多个镜头中。此外,替身演员的面部替换也非常常见,通过技术将替身的脸替换为演员的3D面部模型。



一些AI工具,如Flawless的Deep Editor和MARZ的LipDub AI,不仅能够实现台词替换,还可以减少昂贵的重拍需求。这些工具为导演和编辑提供了更多灵活性,甚至减少了现场多次拍摄的必要。这项技术还被用于好莱坞大制作中的快速老化或返老还童效果。例如,Metaphysic公司为汤姆·汉克斯和罗宾·怀特主演的电影《Here》完成了返老还童特效,大幅提高了效率。



相比传统VFX依赖面部跟踪、多边形操作和CGI渲染的方式,Metaphysic使用GPU驱动的AI技术效率提升了数倍。传统返老还童效果的制作成本可高达5000万美元,且需要全球数百人长期协作,而Metaphysic仅用30人花4个月便完成了同样的工作。导演和制作人对这项技术的兴趣激增,除了老化效果,它还被应用于生物角色的面部表演。


此外,Metaphysic Live支持实时面部置换,可用于电视直播、音乐会和演讲等活动。尽管与电影级效果相比略有差距,实时版本仅需一晚训练,也能达到接近数百名艺术家数月工作的质量。


6 AI配音


对于高级电影和电视内容,生成式AI配音的短期前景尚不明朗。该技术尚未广泛用于国际流媒体或主要院线发行的高端内容。尽管合成语音在成本、速度和规模上具备优势,但质量仍不及传统配音演员。内容本地化网络与客户以非公开方式测试这些技术,但普遍认为技术“尚未成熟”,不适合现有工作流程。


在“低风险”内容领域,合成语音已能满足质量要求,尤其是在速度和规模优先于质量的场景中。例如,社交媒体视频剪辑和拉丁美洲FAST频道内容库的本地化。Papercup的客户包括新闻出版商和体育联盟,他们通过YouTube扩大非英语观众覆盖范围。ElevenLabs也在开发实时配音功能,为直播节目本地化提供可能性。相比之下,在电影和电视领域,AI配音开始被考虑用于“长尾”语言(如撒哈拉以南非洲或印度的方言),这些语言因受众较小无法支撑传统配音成本。测试的重点在于评估AI配音是否“聊胜于无”,以接触未开发市场并变现新受众。不过,在无“配音文化”的市场,配音可能完全无经济价值。


传统高端内容的配音流程复杂且耗时,通常需要双语翻译、脚本改编、导演、配音演员和音效工程师的协作。从脚本翻译到最终音轨交付可能需16周。ElevenLabs推出的Dubbing Studio工具简化了这一流程,允许用户调整情感、时机和发音。例如,可通过文本提示或语音样本定制模型以生成特定语调(如愤怒或悲伤)。此外,语音克隆技术则更具潜力,允许在配音中使用原演员的声音。但目前技术尚未达到规模化应用,更像是高端内容的“噱头”。



尽管如此,其对观众接受度的提升尚未验证。在一些市场,固定的国际配音演员更受观众欢迎,例如德国观众已经习惯了为布拉德·皮特配音的固定演员。


结论


随着好莱坞不断探索生成式AI技术的应用,未来的发展需要在充分发挥AI技术创意潜能的同时,应对其技术和伦理方面的限制。尽管像AI视频生成和语音克隆这样的工具展现了巨大的可能性,但行业必须确保这些技术的使用是对艺术创作的补充,而非取代传统手工艺的精髓。通过审慎应对这些问题,好莱坞有望将生成式AI转化为推动创意与多样性的重要工具,以前所未有的方式扩大其全球观众的覆盖范围。

来源:影视产业观察

相关推荐