北大联合字节VAR模型获NeurIPS 2024最佳论文

B站影视 2024-12-07 06:00 1

摘要:人工智能顶会NeurIPS 2024大会公布了本年度最佳论文奖,今年大会共收到15671篇论文,最终接收率只有25.8%,其中两篇文章获得最佳论文奖一是由北大与字节跳动团队共同完成的《Visual AutoRegressive Modeling: Scalab

人工智能顶会NeurIPS 2024大会公布了本年度最佳论文奖,今年大会共收到15671篇论文,最终接收率只有25.8%,其中两篇文章获得最佳论文奖一是由北大与字节跳动团队共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》(VAR)获得。这篇论文提出了一种颠覆性的新型图像生成框架,不仅首次让自回归模型超越扩散模型,还开创了「逐尺度预测」的全新范式,为视觉生成领域开辟了全新的方向。

另一篇是由新加坡国立大学、 Sea AI Lab研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》,论文一作为 Zekun Shi。

北大与字节的获奖论文推出的模型VAR是首个在视觉领域验证「规模化定律」的模型,个人认为这是中国本土从0到1的生成式人工智能基础研究重大突破。

VAR模型最核心的创新在于重新定义了图像生成的过程,将传统的逐像素生成方式彻底颠覆:

多尺度预测的新范式

传统自回归方法采用「逐像素」的方式,即从图像的左上角逐行生成,依赖每个像素的前置依赖。这种方法不仅效率低,还容易丢失图像的全局结构感。而VAR模型则通过引入多尺度VQVAE,将图像分解为从粗到细的多层次token。生成时,VAR从最低分辨率的全局token开始,逐层生成更高分辨率的细节,从而实现了对图像的「逐尺度预测」。

实现细节:

• 首先通过多尺度VQVAE将原始图像编码为多层分辨率token。

• 在每一层分辨率上,自回归模型并行生成token,并利用上下文信息预测更高分辨率的细节。

这种方式不仅保留了图像的空间局部性,还避免了传统方法中将图像展平成一维序列所引入的空间破坏。

2. 效率的极大提升

传统自回归模型需要逐像素生成,每个步骤依赖所有前置像素,时间复杂度高达O(n6)。VAR则通过「逐尺度并行」的方式,将复杂度降低至O(n4)。这一优化使VAR在推理速度上比扩散模型快20倍,同时接近于GAN的实时生成速度。

3. 视觉生成的「Scaling Law」

VAR模型首次在视觉领域系统性地验证了「规模化定律」,展示了模型参数和训练计算量与性能提升之间的强线性关系。团队通过实验发现,VAR模型的性能随着参数规模的增加呈现出线性提升,与大语言模型的扩展性相似。这种特性不仅使VAR在图像生成中具备更强的性能预测能力,还为更高效的资源分配提供了理论依据。

通过实验对VAR模型进行规模化(即增大模型参数和计算量)时的学习效果进行可视化分析,并验证了规模化定律的有效性。

在ImageNet 256×256基准测试中,VAR的表现堪称惊艳:

1. 生成质量

VAR的FID分数达到1.73(分数越低越好),显著超越扩散模型(如DiT-XL/2的2.27)和传统自回归方法(如VQGAN的15.78)。

在IS(生成图像多样性)指标上,VAR也达到了350.2的高分。

2. 推理速度

VAR比扩散模型快20倍,并且在计算资源消耗上更高效。它仅需10步推理即可生成高质量图像,而扩散模型通常需要250步以上。

3. 零样本泛化能力

VAR无需额外训练即可胜任多种任务,包括图像修复(in-painting)、扩展(out-painting)以及条件编辑。这一能力得益于VAR对图像多尺度结构的深度建模,使其在陌生任务中也能展现出惊人的灵活性。

VAR的潜力不仅局限于图像生成,其应用场景和未来发展方向同样令人期待:

1. 文本到图像生成:团队计划将VAR与大型语言模型结合,实现更强大的文本到图像生成能力,例如通过提示生成高质量的插画或艺术作品。

2. 视频生成的革命:VAR天然支持视频生成的扩展,通过将「逐尺度预测」应用于时间维度,VAR有望解决传统视频生成方法在时间一致性上的难题,为影视制作和虚拟现实领域注入新活力。

3. 产业应用:在游戏开发、电影特效、教育可视化等领域,VAR模型将为用户提供更快、更高效的视觉生成解决方案。

结语

VAR模型的成功不仅是技术上的突破,更是一种范式转变。它让我们看到,大语言模型的成功经验可以移植到视觉领域,从而激发出更强大的多模态智能。随着更多模型代码和数据的开源,VAR有望成为视觉生成领域的开山之作,推动下一代AI技术的发展。

VAR项目地址:

--AI 寒武纪

来源:Future远见

相关推荐