无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

B站影视 电影资讯 2025-06-28 19:50 1

摘要:本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。在高质量视频生成

本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性,虽然效果出色,但计算量会随着 token 数量呈平方增长,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/2502.21079),多采用稀疏注意力机制,在 GPU 上实现了一定程度的端到端加速。然而,受限于稀疏度不足和稀疏模式设计的刚性,这些方法的加速效果仍不理想。此外,它们普遍依赖固定的稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控。因此,设计一种具备动态可调性、硬件友好且无需训练的稀疏注意力机制,对提升视频扩散模型的效率与实用性具有重要意义。近期,来自美国东北大学、香港中文大学、Adobe Research 等机构的研究团队提出了一种无需训练、即插即用的,基于动态稀疏注意力的视频扩散模型加速方法 ——DraftAttention,显著降低了注意力机制的计算开销,并且在几乎不损失生成质量的前提下,实现高达 2 倍的 GPU 端到端推理加速。DraftAttention总结与展望DraftAttention 提供了一种简洁而高效的解决方案:通过低分辨率草图引导、结构化稀疏掩码生成与硬件友好的 token 重排,不仅显著提升了视频扩散模型的推理效率,还在高稀疏率下保持了出色的生成质量。其「无需训练、即插即用、动态可调、适配主流模型与硬件」的特性,使其具备良好的工程可落地性和研究拓展性。未来,作者计划进一步结合量化与蒸馏等技术,继续优化长视频生成过程中的效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com原标题:《无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention》

来源:小杨科技观

相关推荐