清华大学团队让AI在生成时“多想想”就能拍出更好的视频

B站影视 电影资讯 2025-08-04 21:52 1

摘要:这项研究的突破性在于,它首次将大语言模型中已经验证有效的"测试时扩展"技术成功应用到了视频生成领域。研究结果显示,在不需要重新训练模型或增加模型参数的情况下,仅仅通过在生成时投入更多计算资源,就能让视频生成模型在各个评估维度上都获得显著提升。更令人惊喜的是,这


这项研究的突破性在于,它首次将大语言模型中已经验证有效的"测试时扩展"技术成功应用到了视频生成领域。研究结果显示,在不需要重新训练模型或增加模型参数的情况下,仅仅通过在生成时投入更多计算资源,就能让视频生成模型在各个评估维度上都获得显著提升。更令人惊喜的是,这种方法对不同类型的视频生成模型都有效,无论是基于扩散模型的还是自回归模型,都能从中受益。

研究团队在六个主流的开源视频生成模型上进行了广泛测试,包括OpenSora、CogVideoX和Pyramid-Flow等,实验结果证实了这种方法的普适性和有效性。通过VBench这一权威视频生成评估基准的十六个不同维度测试,所有模型在使用测试时扩展后都实现了稳定的性能提升,有些维度的改进甚至超过了35%。

一、为什么要给AI"延长考试时间"?

传统的AI视频生成就像一个赶时间的画家,从一片随机噪声开始,按照文字描述一步步"画"出视频。这个过程通常是固定的:给定一个起始点(随机噪声),AI就沿着预设的路径生成一个视频,然后直接输出结果。这种方式虽然效率很高,但就像学生匆忙交卷一样,往往无法充分发挥AI的潜力。

现在考虑这样一个场景:假设你是一位摄影师,客户要求你拍摄"一只熊猫在咖啡厅喝咖啡"的视频。传统方式下,你只能拍一条视频就交付。但如果时间和资源允许,你肯定会从不同角度、不同光线条件下拍摄多条视频,然后选择效果最好的那条交给客户。测试时扩展的核心思想正是如此——让AI生成多个候选视频,然后通过智能评估系统选出最优秀的那个。

这种思路的灵感来自于大语言模型领域的成功经验。最近像OpenAI的o1和DeepSeek-R1这样的模型已经证明,给AI更多时间去"思考"——也就是在推理过程中使用更多计算资源——能够显著提升模型的表现。特别是在解决复杂问题时,这些模型会生成多个中间推理步骤,探索不同的解题路径,最终给出更加准确和有思考深度的答案。

视频生成面临的挑战比文本生成更加复杂。文本是一维的序列,而视频不仅包含时间维度上的连续性,还需要保证空间维度上每一帧画面的质量。每个视频帧都需要在色彩、构图、光线等方面保持一致性,同时整个视频序列还要确保动作流畅、物理合理。这就像要求一个画家不仅要画好每一幅画,还要确保所有画作能够连贯地讲述一个故事。

研究团队发现,当前的视频生成模型虽然在训练时已经学会了丰富的视觉知识,但在实际生成过程中,由于时间和计算资源的限制,往往无法充分利用这些知识。测试时扩展就像给这些模型提供了一个"反思"的机会,让它们能够在生成过程中多次尝试、比较和优化,从而产出更高质量的结果。

特别值得注意的是,这种方法不需要重新训练模型或增加模型参数。对于普通用户来说,这意味着可以直接在现有的视频生成模型上应用这项技术,而不需要等待新模型的训练完成。这种"即插即用"的特性使得测试时扩展具有很强的实用价值和推广潜力。

二、把视频生成变成一场"寻宝游戏"

研究团队的核心创新在于将视频生成重新定义为一个搜索问题。如果把视频生成比作一场寻宝游戏,那么传统方法就像按照固定地图走一条路线,而测试时扩展则像是在同一片区域内探索多条路径,寻找通往最佳宝藏的道路。

在这个"寻宝游戏"中,起点是高斯噪声空间——一片看起来毫无意义的随机像素点,就像一张白纸上的随机涂鸦。终点则是符合文字描述的高质量视频。传统的视频生成过程就像有一条预设的路径,AI沿着这条路径逐步去除噪声,最终到达目标视频。但问题在于,这条路径可能不是最优的,就像GPS导航有时会选择一条并不是最短或最舒适的路线。

测试时扩展的做法是让AI同时探索多条路径。研究团队设计了三个关键组件来支持这种探索:视频生成器、测试验证器和启发式搜索算法。视频生成器就像是探险队的向导,负责在噪声空间中开辟道路;测试验证器则像是经验丰富的鉴宝师,能够评估当前路径上发现的"宝藏"质量如何;启发式搜索算法则像是探险队长,根据鉴宝师的反馈决定接下来应该朝哪个方向继续探索。

这种搜索过程可以想象成一个动态的决策树。每当AI需要做出选择时——比如这一帧画面中的熊猫应该是什么表情,手是如何握住咖啡杯的——它不再只生成一种可能性,而是生成多种选择,然后通过验证器评估每种选择的质量,保留最有希望的选项继续发展。

验证器的设计特别巧妙。研究团队使用了多个不同的多模态评估模型,包括VisionReward、VideoScore和VideoLLaMA3等。这些验证器就像不同专业背景的评委,有的更关注画面的美观程度,有的更注重动作的自然性,还有的专门检查是否符合文字描述的要求。通过多个评委的综合评分,系统能够更全面地评估视频质量,避免单一标准可能带来的偏差。

为了让这个搜索过程更加高效,研究团队还设计了一套分层评估策略。在视频生成的早期阶段,系统主要关注静态画面的质量——就像先确保每一帧都画得足够清晰和美观。在中期阶段,评估重点转向动作的连贯性和物理合理性——确保熊猫的动作符合自然规律,咖啡不会莫名其妙地悬浮在空中。在最后阶段,系统进行全局评估,检查整个视频是否与文字描述完全匹配。

这种分层策略的好处是避免了无效的计算浪费。如果一个视频片段在早期阶段就被判定为质量不佳,系统就不会在它身上继续投入更多资源,而是将计算力集中在那些更有希望的候选项上。这就像在选拔赛中,表现不佳的选手会被提前淘汰,避免浪费后续比赛的时间和资源。

三、两种"寻宝策略":直接搜索与智能剪枝

研究团队开发了两种不同的搜索策略,分别适应不同的应用场景和计算资源限制。第一种叫做"随机线性搜索",这是最直观的方法,就像同时派出多支探险队,每支队伍都独立地寻找宝藏,最后比较所有队伍的收获,选择最好的那一个。

随机线性搜索的过程相当简单明了。系统首先生成N个不同的随机起点(高斯噪声),然后让视频生成模型从每个起点开始完整地生成一个视频。这就像是让同一位画家基于不同的灵感源泉创作N幅作品,然后从中挑选最满意的一幅。每个生成过程都是完全独立的,互不干扰,最后通过验证器对所有生成的视频进行评分,选择得分最高的那个作为最终输出。

这种方法的优点是简单直接,不需要复杂的决策逻辑,而且可以很容易地并行化处理——就像同时开启多台烤箱烤蛋糕,互不影响。然而,它的缺点也很明显:计算成本随着候选数量线性增长,如果要生成很多候选视频或者视频很长,计算开销会变得非常大。这就像为了找到一件满意的衣服而买下整个商店的库存,虽然保证能找到最好的,但代价太高。

为了解决这个问题,研究团队开发了第二种更加智能的搜索策略,叫做"帧树搜索"(Tree-of-Frames,简称ToF)。这种方法不再是简单的并行生成,而是采用了类似下棋时的思路——在每一步都考虑多种可能性,但只保留最有希望的选项继续发展。

帧树搜索的过程可以想象成这样一个场景:你是一位电影导演,正在拍摄一个复杂的场景。传统方法是从头到尾一镜到底,如果中间有任何不满意的地方,就要重新开始。而帧树搜索则像是分镜头拍摄——先拍摄开头的几个镜头,从中选择最好的几个,然后基于这些好的开头继续拍摄后续镜头,再次选择,如此反复。这样既保证了最终效果的质量,又避免了大量无效的重复工作。

具体来说,帧树搜索将视频生成过程分为三个阶段。第一阶段专注于生成高质量的初始帧,就像为一部电影确定基调和风格。系统会生成多个候选的初始帧,通过验证器评估它们在色彩、构图、角色造型等方面的质量,然后保留最优秀的几个作为后续发展的基础。

第二阶段关注中间帧的生成,重点是动作的连贯性和物理合理性。系统不会为每个初始帧都生成完整的视频序列,而是生成一小段中间过程,评估这些中间过程是否符合预期的动作轨迹,然后决定哪些分支值得继续发展。这就像在拍摄动作戏时,导演会先拍摄关键的动作片段,确保动作设计合理后再拍摄完整的场景。

第三阶段进行最终的全局评估,确保整个视频从头到尾都符合文字描述的要求,并且在视觉效果上达到预期标准。这个阶段的评估更加严格和全面,会考虑视频的整体叙事性、视觉一致性和艺术效果。

帧树搜索的巧妙之处在于它的自适应剪枝机制。在搜索过程中,系统会动态地调整每个节点的"子分支"数量。如果某个分支显示出很高的潜力,系统会为它分配更多的计算资源;如果某个分支的表现平平,系统会减少对它的投入,甚至完全放弃。这种策略大大提高了计算效率,使得在有限的计算预算下能够探索更广阔的可能性空间。

研究团队的实验表明,帧树搜索在保持类似质量提升效果的同时,计算开销比随机线性搜索减少了大约68%。这意味着用户可以用更少的时间和计算资源获得更好的视频生成效果,使得这项技术更具实用价值。

四、让多个"评委"一起打分

单一的评判标准往往容易产生偏见,就像只有一位评委的比赛很难保证公平性。研究团队意识到这个问题,因此设计了一套多验证器的评估体系,让多个不同特长的"评委"共同为生成的视频打分。

这套评估体系包含了三个主要的验证器,每个都有自己的专长领域。VisionReward专门评估视频的视觉吸引力和美学质量,它会关注画面的色彩搭配、构图平衡、光影效果等艺术层面的因素。这就像一位专业的摄影师,能够一眼看出画面是否具有视觉冲击力和美感。

VideoScore则更注重视频内容与文字描述的匹配程度,它会仔细检查视频中的每个元素是否符合用户的要求。比如用户要求"一只熊猫在咖啡厅喝咖啡",VideoScore就会检查视频中是否真的有熊猫、是否在咖啡厅环境中、是否有喝咖啡的动作等。这就像一位严格的导演,会对照剧本逐项检查每个镜头是否符合要求。

VideoLLaMA3是一个更加综合的多模态基础模型,它不仅能理解视频内容,还能进行复杂的推理和判断。它会从更高层次评估视频的整体质量,包括故事性、逻辑性、情感表达等更抽象的维度。这就像一位资深的电影评论家,不仅关注技术层面的表现,还会考虑作品的艺术价值和情感共鸣。

为了让这三个验证器的意见能够有效结合,研究团队设计了一套加权排序系统。每个验证器会对候选视频给出自己的排名,然后系统根据预设的权重将这些排名综合成一个最终分数。这个过程类似于奥运会的评分机制,多位裁判各自打分,然后按照一定规则计算最终得分。

有趣的是,研究团队还用VBench——一个被广泛认可的视频生成评估基准——作为"金标准"来验证这三个验证器的有效性。实验结果显示,当三个验证器的意见一致时,生成的视频在VBench上的表现通常也很出色;当它们意见分歧较大时,生成的视频质量往往存在问题。这证明了多验证器系统的可靠性和有效性。

在实际应用中,这套多验证器系统还展现出了很好的鲁棒性。即使某个验证器在特定类型的视频上表现不佳,其他验证器也能起到补偿作用,确保整体评估的准确性。这就像一个团队中有不同专长的成员,即使个别成员在某些任务上不够出色,团队整体仍能保持高水平的表现。

更重要的是,这种多验证器的方法为未来的改进留下了空间。随着新的评估模型不断涌现,研究团队可以很容易地将它们集成到现有系统中,进一步提升评估的准确性和全面性。这种模块化的设计思路使得整个系统具有很好的可扩展性和适应性。

五、实验证明:确实"越想越好"

为了验证测试时扩展方法的有效性,研究团队进行了一系列广泛而深入的实验。他们选择了六个具有代表性的开源视频生成模型进行测试,这些模型涵盖了当前主流的两种技术路线:基于扩散模型的OpenSora-v1.2、CogVideoX-2B和CogVideoX-5B,以及基于自回归的NOVA、Pyramid-Flow(SD3)和Pyramid-Flow(FLUX)。这种选择确保了实验结果的广泛适用性。

实验的评估标准采用了VBench这一权威基准,它包含16个不同的评估维度,涵盖了视频质量的各个方面。这些维度包括基础的图像质量、动作连贯性、时间一致性,以及更高层次的语义匹配、物理合理性等。这就像用一套全面的体检标准来评估视频的"健康状况",确保不会遗漏任何重要方面。

实验结果令人印象深刻。随着测试时使用的计算资源增加(即生成更多候选视频),所有模型的性能都呈现出稳定的上升趋势。这种提升不是偶然的小幅波动,而是持续稳定的改善。更有趣的是,不同模型的改进程度存在显著差异。

较大的模型,如CogVideoX-5B,在测试时扩展中表现出了更大的提升潜力。这个发现符合直觉:更大的模型拥有更丰富的知识储备,当给予更充足的"思考时间"时,它们能够更好地利用这些知识产生优质内容。相比之下,较小的模型如NOVA虽然也有改善,但提升幅度相对有限。这就像给不同水平的学生延长考试时间,优秀学生的提升往往更加明显。

在具体的评估维度上,测试时扩展在某些方面的效果特别突出。对于"多对象"、"场景"、"物体类别"等涉及语义理解的维度,改进幅度普遍较大,有些甚至超过了35%。这表明测试时扩展特别有助于提升AI对复杂场景的理解和表达能力。

然而,实验也揭示了这种方法的一些局限性。对于"动作平滑度"和"时间闪烁"等高度依赖模型基础能力的维度,测试时扩展的改进效果相对有限。这提醒我们,虽然"给更多时间思考"确实有用,但如果基础能力存在缺陷,单纯增加思考时间也无法完全解决问题。

帧树搜索与随机线性搜索的对比实验同样给出了有价值的结果。在三个自回归模型上的测试显示,帧树搜索在达到相似性能提升的同时,计算开销大幅降低。具体数据显示,Pyramid-Flow(FLUX)模型的计算量从5.22×10^7 GFLOPs降低到1.62×10^7 GFLOPs,降幅约为68%。这种效率提升使得测试时扩展更具实用价值。

研究团队还进行了一个特别有意义的对比实验:将使用测试时扩展的小模型与不使用该技术的大模型进行比较。结果显示,2B参数的Pyramid-Flow模型在使用测试时扩展后,在多个维度上的表现接近甚至超过了13B参数的HunyuanVideo模型。这个发现具有重要的实际意义,表明通过测试时扩展,用户可以用更小的模型获得接近大模型的效果,大大降低了硬件要求和使用成本。

实验还揭示了一个有趣的现象:不同类型的提示词(prompt)对测试时扩展的响应程度不同。简单的描述性提示词,如"一朵花在风中摇摆",改进效果相对有限;而复杂的场景描述,如"一个机器人在时代广场跳舞",则显示出显著的质量提升。这表明测试时扩展特别适合处理那些对AI来说具有挑战性的复杂任务。

六、从技术突破到实际应用的桥梁

测试时扩展技术的意义远不止于学术研究上的突破,它为视频生成技术的实际应用开辟了新的可能性。当前AI视频生成面临的最大挑战之一就是质量的不稳定性——同样的文字描述,AI有时能生成令人惊艳的视频,有时却产出质量平庸的作品。测试时扩展提供了一种解决这种不确定性的方法。

对于内容创作者来说,这项技术意味着更高的创作成功率。传统方式下,创作者可能需要反复尝试才能得到满意的视频,这个过程既耗时又令人沮丧。有了测试时扩展,AI可以在一次请求中就探索多种可能性,大大提高了获得高质量结果的概率。这就像从"碰运气"变成了"有把握"的创作过程。

从商业角度来看,这项技术的价值同样显著。视频制作行业一直面临着成本高、周期长的问题,特别是在需要大量短视频内容的场景下。测试时扩展虽然增加了单次生成的计算成本,但通过提高成功率,实际上可能降低了总体成本。企业不再需要雇佣大量人员进行反复尝试和修改,而是可以依靠AI一次性产出高质量内容。

教育领域也是这项技术的重要应用场景。教师可以利用测试时扩展生成高质量的教学视频,将抽象概念可视化。由于技术能够确保较高的成功率,教师不需要具备专业的视频制作技能,就能创作出吸引学生注意力的教学材料。这种易用性的提升可能会推动教育内容创作的民主化。

然而,这项技术的推广也面临一些现实挑战。首先是计算资源的需求。虽然帧树搜索相比随机线性搜索已经大幅降低了计算开销,但相比传统的单次生成,测试时扩展仍然需要更多的计算力。这意味着在推广过程中,需要在质量提升和成本控制之间找到平衡点。

另一个挑战是如何让普通用户理解和有效使用这项技术。测试时扩展涉及多个参数设置,如候选数量、验证器权重、搜索深度等,这些参数的选择会显著影响最终效果。如何为不同水平的用户提供合适的默认设置和调优指导,是技术落地过程中需要解决的重要问题。

研究团队已经开始考虑这些实际应用中的问题。他们在项目页面上提供了详细的使用指南和最佳实践建议,帮助用户根据自己的需求和资源限制选择合适的配置。同时,他们也在探索自动化参数调优的方法,让系统能够根据用户的历史使用情况和偏好自动选择最佳参数。

从技术发展的角度来看,测试时扩展为未来的研究方向提供了新的思路。传统的AI模型优化主要集中在训练阶段,通过增加数据量、调整模型架构或改进训练算法来提升性能。测试时扩展则开辟了一条新的路径——在推理阶段投入更多计算资源来获得更好的结果。这种思路可能会影响未来AI系统的设计理念,促使研究者重新思考训练时优化和推理时优化之间的平衡。

更进一步地,测试时扩展的成功可能会催生新的商业模式。传统的AI服务通常按照调用次数收费,而测试时扩展可能推动按质量分级收费的模式——用户可以选择标准质量(单次生成)或高质量(测试时扩展)服务,根据自己的需求和预算做出选择。这种灵活的定价模式可能会让AI视频生成服务覆盖更广泛的用户群体。

说到底,这项研究最重要的贡献在于它证明了一个简单而深刻的道理:给AI更多时间和机会去"思考",往往能获得更好的结果。这个发现不仅适用于视频生成,很可能对整个AI领域都有启发意义。在追求更大、更复杂模型的同时,我们也许应该更多地思考如何让现有模型发挥出更大的潜力。

研究团队的工作为这个方向提供了一个优秀的起点。他们不仅提出了有效的技术方案,还通过详尽的实验证明了方案的可行性和优越性。更重要的是,他们将所有代码和模型开源,为后续研究和应用奠定了基础。这种开放的态度体现了学术研究的价值追求,也为技术的快速发展和广泛应用创造了条件。

当然,任何技术都不是完美的,测试时扩展也有其局限性。它主要适用于那些对质量要求较高、对时间要求相对宽松的场景。对于需要实时生成的应用,如实时视频通话中的背景替换,这种方法可能就不太适用。但在内容创作、教育、营销等对质量要求较高的领域,测试时扩展无疑提供了一个强有力的工具。

展望未来,随着计算硬件的不断发展和算法的持续优化,测试时扩展的计算开销会逐渐降低,使用门槛也会不断下降。我们有理由相信,这项技术将成为AI视频生成领域的一个重要里程碑,推动整个行业向更高质量、更可靠的方向发展。对于普通用户来说,这意味着他们很快就能享受到更加优质和稳定的AI视频生成服务,让创意表达变得更加容易和有趣。

Q&A

Q1:测试时扩展会让视频生成变得很慢吗? A:确实会增加生成时间,因为需要生成和评估多个候选视频。但研究团队设计的帧树搜索方法已经将计算开销降低了约68%。对于追求高质量结果的用户来说,这个时间成本是值得的,就像精心烹饪一道美食需要更多时间,但结果更令人满意。

Q2:普通用户能用上这项技术吗?需要很强的技术背景吗? A:不需要技术背景。研究团队已经将技术开源,并在项目页面提供了详细使用指南。用户只需要按照指南设置几个简单参数,系统就会自动完成复杂的搜索和选择过程。这就像使用相机的自动模式,用户不需要理解光圈快门的原理,但能拍出更好的照片。

Q3:这项技术只对大模型有效吗?小模型用了有改善吗? A:所有测试的模型都有改善,但大模型的提升更明显。有趣的是,使用测试时扩展的小模型甚至能接近未使用该技术的大模型效果。这意味着用户可以用较小的模型获得接近大模型的质量,降低了硬件要求和使用成本。

来源:至顶网一点号

相关推荐