电影工业的百年难题,AI想通了?

B站影视 电影资讯 2025-09-01 10:59 1

摘要:我们似乎已经习惯了这样一个事实:人工智能在视频生成领域飞速狂奔,从Sora到Kling,每一个新模型的诞生都让我们惊叹于AI那神乎其技的视觉创造力。然而,在一片视觉的狂欢之中,一个尴尬的问题始终挥之不去——这些由AI精心绘制的、栩栩如生的视频,几乎全都是“哑巴

我们似乎已经习惯了这样一个事实:人工智能在视频生成领域飞速狂奔,从Sora到Kling,每一个新模型的诞生都让我们惊叹于AI那神乎其技的视觉创造力。然而,在一片视觉的狂欢之中,一个尴尬的问题始终挥之不去——这些由AI精心绘制的、栩栩如生的视频,几乎全都是“哑巴”。

这种感觉很奇怪,就像是看一场特效炸裂的好莱坞大片,却被关掉了音响。飞龙掠过天空没有风啸,巨浪拍击海岸没有涛声,恋人深情相拥却只有一片死寂。这种“无声之痛”,极大地削弱了内容的沉浸感和真实感,仿佛在视觉与情感之间,隔了一层厚厚的玻璃。我们离那个由AI构建的虚拟世界,总是差了那么临门一脚的听觉体验。

8月28日,腾讯混元团亲手终结AI视频的默片时代。

他们正式开源了一个名为HunyuanVideo-Foley的端到端框架,一个听起来就很有电影范儿的名字。它想做的,就是给那些沉默的画面,配上应有的灵魂——声音。这个模型号称能根据视频内容和文本描述,生成与视觉动态和语义都精确对齐的高保真音频,听起来,这正是我们一直在等待的答案。

电影工业的百年难题,AI想通了?

要理解HunyuanVideo-Foley到底有多厉害,我们得先聊聊一个在电影圈里听起来有点神秘,但又至关重要的角色——Foley,中文翻译过来叫“拟音”。

这个词源于一位名叫Jack Foley的开创者。时间回到1929年,有声电影刚刚兴起,当时的麦克风很笨拙,只能勉强收录演员的对白,至于走路的脚步声、衣服摩擦的沙沙声、挥动拳头的破风声……这些细节一概欠奉。于是,Foley艺术家应运而生,他们就像声音的魔术师,躲在录音棚里,用各种稀奇古怪的道具,对着屏幕上的画面,实时创造出那些缺失的声音。

声音设计师Heikki Kossi在为电影《星际救援》工作时曾说:“或许道具跟现实的物体并不相似,但是创造出对的声音,并且有对的表情和节奏,就会让整体听起来是对的。” 这句话道出了拟音的精髓:它既是技术,更是艺术。它需要专业的设备、丰富的道具,更需要一位经验老道的艺术家,凭借直觉和经验,为冰冷的画面注入声音的生命力。

这个过程,费时、费力、费钱。所以,当AI技术发展起来后,全世界的工程师们都想用算法来自动化这个过程,这便是Video-to-Audio(V2A)技术的由来。一开始,大家想得很简单,做一个巨大的音效库,AI看到画面里有人走路,就配一段走路的音效。但结果往往很糟糕,生成的音频单调、机械,缺乏真实感。

后来,随着深度学习和多模态模型的进步,情况有所好转。像Google DeepMind这样的巨头也在研究,他们的V2A技术能“结合了视频像素和自然语言文本提示,为屏幕上的动作生成丰富的音景”。学术界也涌现出像STA-V2A、TA-V2A这样的新方法。但它们始终没能彻底解决三个核心的拦路虎:

高质量的视频-音频-文本三者对齐的数据太少了,AI没有足够的“教材”去学习。模型很容易“偏科”,有时候过于依赖画面,有时候又过于依赖文本描述,没法做到很好的平衡。生成的音频质量还是差点意思,保真度、时间点、语义的准确性,总有不尽如人意的地方。

正是在这样的背景下,腾讯混元团队带着他们的HunyuanVideo-Foley来了,宣称用三大创新系统性地解决了这些老大难问题。

腾讯端出的这盘菜,配料有点猛

HunyuanVideo-Foley是腾讯混元团队联合浙江大学、南京航空航天大学一起搞出来的项目。它不是一个简单的玩具,而是一个定位专业级的AI音效生成工具,目标用户是短视频创作者、电影制作人、广告人和游戏开发者。它要做的,就是让AI“懂画面、读文字、配准声音”。

那么,它是怎么做到的呢?我们来看看它厨房里的三味“独家配方”。

第一个配方,是堪称海量的“食材”。我们都知道,AI模型的效果,很大程度上取决于喂给它什么样的数据。为了解决高质量数据稀缺的问题,团队设计了一套创新的可扩展数据管道。这套流程能从原始的视频库里,通过自动化的标注技术,吭哧吭哧地生产出视频、音频、文本三者精确对齐的“教材”。最终,他们硬是攒出了一个包含10万小时高质量多模态数据的训练集。10万小时是什么概念?这在V2A领域里,绝对算得上是前所未有的“满汉全席”了,让模型有了足够丰富多样的样本去学习和理解这个世界的声音。

第二个配方,是一种叫做“多模态扩散Transformer(MMDiT)”的特殊架构。这是为了解决前面提到的模型“偏科”问题。在多模态学习里,视觉信息和文本信息就像两个争宠的孩子,总想主导最终的结果。MMDiT的作用,就像一个智慧的家长,它通过“双流时间融合”和“跨模态语义注入”这两种机制,让两个孩子既能各自发挥,又能和谐共处。它用联合注意力机制,让音频和视频流在时间上步调一致;又用交叉注意力机制,把文本描述里的语义信息,恰到好处地“注入”到音视频的处理流程中。腾讯混元团队是这么描述的:“我们的创新多模态扩散transformer架构确保模型平衡视频和文本提示,生成丰富、分层的音效,捕捉从主要主体到微妙背景元素的每一个细节。”说白了,就是既看到了画面,也听懂了人话,然后做出一个最合理的判断。

第三个配方,是一套名为“表示对齐(REPA)”的品控策略。光能生成声音还不够,声音的质量必须过硬。REPA策略就像是给模型请了一位“声音鉴赏大师”当陪练。这个“大师”是一个预训练好的自监督音频模型ATST-Frame,它对什么样的声音是高质量的有自己深刻的理解。在训练过程中,REPA策略会不断地将HunyuanVideo-Foley自己生成的音频,和这位“大师”的判断进行比对和对齐,一旦发现有偏差,就立刻进行纠正。正如技术报告里写的:“表示对齐(REPA)使用自监督音频特征来引导潜在扩散训练,有效提高生成稳定性和音频质量。”这种自监督的引导方式,聪明之处在于它不需要额外的人工标注,就能潜移默化地提升模型的“音乐品味”。

不服跑个分,数据不说谎

在AI领域,“跑分”是对一个模型最直接的检验。腾讯混元团队在三个业界公认的权威评估基准上,对模型进行了全面的测试,并和当前最顶尖的几个模型放在一起公开处刑。

第一个“考场”是Kling-Audio-Eval,这是一个专门为V2A任务设计的评估集。

注:↑表示该指标越大越好,↓表示该指标越小越好。加粗表示最佳结果。

结果可以说相当惊人。在这张密密麻麻的成绩单上,总共11个评估科目,HunyuanVideo-Foley直接拿下了7个第一名,在音频质量(FD PaNNs)、语义对齐(PQ)、时间同步(DeSync)等多个关键维度上,都展现出了统治级的表现。

第二个“考场”是VGGSound-Test,一个更大规模的数据集测试。

这一次,竞争变得更加激烈,MMAudio和ThinkSound在一些指标上表现也非常强劲。但HunyuanVideo-Foley依然稳稳地拿下了4个最佳结果,尤其是在语义对齐相关的PQ、CU、IB等指标上,显示出其对内容的深刻理解力。

但真正奠定其王者地位的,是第三个“考场”——MovieGen-Audio-Bench。这个基准的特殊之处在于,它不仅有冰冷的客观数据,还引入了人类主观评分,也就是让真人来听,凭感觉打分。这才是最考验模型实际体验的“终极面试”。

结果一目了然。HunyuanVideo-Foley在10个指标中独占8个鳌头。尤其是在最后三项主观评分——音频质量(MOS-Q)、语义对齐(MOS-S)和时间对齐(MOS-T)上,它的得分(4.14, 4.12, 4.15)远远甩开了所有对手,几乎是断层式的领先。这说明,在真实的人类听众耳朵里,HunyuanVideo-Foley生成的声音就是最自然、最准确、最舒服的。

数据不会说谎。正如腾讯混元团队自己总结的那样:“HunyuanVideo-Foley在多个评估基准上实现了SOTA,在音频质量、视觉-语义对齐和时间对齐方面超越了所有开源模型。”

所以,这玩意儿到底能怎么玩?

那么,对于我们普通人或者内容创作者来说,这项技术意味着什么呢?

它的应用场景几乎覆盖了所有需要声音的视频领域。想象一下,你是一个短视频博主,拍了一段在海边漫步的唯美视频。过去,你可能需要去素材网站找一段海浪声的罐头音效,效果还未必好。现在,你只需要把视频上传,再输入一句“一个女人在沙滩上行走,海浪轻轻拍打着岸边”,HunyuanVideo-Foley就能在几分钟内为你生成一段独一无二、与画面完美同步的现场声。

对于电影、广告和游戏行业来说,这更是生产力的一次解放。它可以作为专业拟音师的得力助手,快速生成影片的基础音轨,让艺术家们可以把更多精力放在更具创造性的声音设计上,从而大大提高后期制作的效率,降低成本。

我们来看一些具体的例子。

Prompt: With a faint sound as their hands parted, the two embraced, a soft ‘mm’ escaping between them.

Prompt: The sound of the number 3's bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

Prompt: The crackling of the fire, the whooshing of the flames, and the occasional crisp popping of charred leaves filled the forest.

Prompt: humming of the scooter engine accelerates slowly.

Prompt: dog's tongue lapping against the bowl.

AI视频的默片时代,或许真的要结束了。

过去很长一段时间,我们惊叹于AI“看”世界的能力,而现在,我们开始能“听”到它所理解的世界。

当画面与声音真正融为一体时,AI生成内容的最后一块短板,也正在被补齐。

来源:AI观察室

相关推荐