大模型装进口袋:手机本地运行9倍速秒出高清图,质量比肩顶级模型

B站影视 日本电影 2025-03-30 20:37 1

摘要:比如,通过模拟暴雨中的道路塌陷、暴雪天突发交通事故等极端场景,让自动驾驶系统在虚拟世界中积累应对突发状况的经验,从而提升实际道路行驶的安全性。

在自动驾驶技术的演进过程中,实时生成高保真图像的能力已经成为构建虚拟训练环境的核心突破点。

比如,通过模拟暴雨中的道路塌陷、暴雪天突发交通事故等极端场景,让自动驾驶系统在虚拟世界中积累应对突发状况的经验,从而提升实际道路行驶的安全性。

尽管生成式 AI 技术为这一领域展现出巨大潜力,但现有的一些主流模型在实际应用中仍存在短板。例如,扩散模型虽然能够生成细节惊人的逼真图像,但它的处理速度较慢且计算成本高昂,这种特性使得其在需要实时响应的车载系统中可能难以落地应用。

与之形成对比的是,类似于驱动 ChatGPT 的自回归模型,在处理速度上有显著优势,但所生成的图像质量往往不尽如人意,容易导致图像结构紊乱,特别是在处理复杂光影和精细纹理时,经常出现车辆零件错位、交通标志扭曲等“幻觉”现象。

近期,来自麻省理工学院和英伟达的研究人员开发出一种新方法,这款名为 HART(Hybrid Autoregressive Transformer)的新工具巧妙地结合了这两种模型的优点:首先,它利用自回归模型迅速捕捉到图像的整体框架,然后通过一个较小的扩散模型来精细调整图像细节。

实验数据显示,这种结合两种模型优势的 HART 不仅能够达到甚至超越当前顶尖扩散模型的图像质量,而且效率提高了 9 倍之多。

与传统的扩散模型相比,HART 的运行更加高效,减少了所需的计算资源,这意味着它可以在笔记本电脑或智能手机这样的本地设备上直接运行。

操作过程也十分简单,用户只需简单地在 HART 界面上输入一条自然语言指令,就可以轻松生成高质量的图像。

正如这篇研究论文的共同第一作者、麻省理工学院 Haotian Tang 博士所说的那样,“想象你在画一幅风景画,如果直接一次涂满整个画布,效果可能并不会好;但若是先勾勒出大致轮廓先勾勒出大致轮廓,然后再用小笔触精修逐步完善,最终的作品会显得更加精致。”而这,也是 HART 创作背后的基本理念。

研究人员表示,HART 有着非常广泛的应用前景,比如,可以帮助机器人学习如何完成复杂的现实世界任务,亦或是辅助设计师为电子游戏打造栩栩如生的游戏场景。

这项新研究是由来自麻省理工学院、清华大学和英伟达的一支多学科研究团队共同完成的,其中包括 Haotian Tang 博士和清华大学的本科生 Yecheng Wu(两位是论文的共同第一作者)、麻省理工学院电子工程与计算机科学系副教授韩松等。

他们的这项研究成果即将在国际学习表征会议(ICLR)上展示。这项研究工作得到了 MIT-IBM Watson AI 实验室、MIT 和 Amazon 科学中心、MIT AI 硬件项目以及美国国家科学基金会的部分资助。此外,研究中用于训练该模型的 GPU 基础设施由英伟达捐赠。

取两者之所长

在生成式 AI 领域,以 Stable Diffusion 和 DALL-E 为代表的扩散模型凭借其卓越的图像生成质量,已成为当前计算机视觉领域的重要技术。

这些模型通过模拟物理扩散过程的反向推导,拥有精密的多步迭代去噪机制,即通过一种“迭代过程”生成图像。在这个过程中,模型会预测并消除图像中每个像素上的随机噪声。这个“去噪”过程需要多次重复进行,直到最终生成一张完全无噪点的新图像。

由于扩散模型在每一步都需要对整个图像的所有像素进行处理,并且可能需要 30 步甚至更多的步骤才能完成这一过程,因此这种方法既耗时又耗费大量计算资源。

然而,恰恰正是这种多次的“修正”机会使得最终生成的图像具有非常高的质量。

相比之下,自回归模型通常被用于文本预测,但也能用来生成图像,其方式是逐个区域地预测图像内容,每次只处理几个像素。

虽然这种方法不允许模型“回头”修正之前的错误,但由于其顺序性的特点,它生成图像的速度要比扩散模型快得多。

这类模型依赖于所谓的“标记”,即一种表示形式来进行预测。自回归模型使用自动编码器将原始图像的像素信息压缩成离散的标记,并基于这些标记来重建图像。

尽管这提高了模型的运行速度,但在压缩过程中不可避免的信息丢失会导致生成图像时出现错误。

HART 方法的独特之处在于,研究人员巧妙结合了自回归模型的速度优势与扩散模型的精细细节捕捉能力。

首先,它利用自回归模型快速预测出压缩后的离散图像标记;然后,再应用一个小规模的扩散模型来预测那些未被捕获的剩余标记,以此弥补信息丢失带来的不足。

“通过这种方式,我们在图像重建的质量方面取得了显著进步。剩余标记能够学习到高频细节,比如物体边缘、人物头发、眼睛或嘴巴等部位,这些都是离散标记容易出现错误的地方。”Haotian Tang 解释说。

由于扩散模型仅需在自回归模型完成后对剩余细节进行预测,它只需要 8 步就能完成任务,远少于传统扩散模型所需的 30 步甚至更多步骤。

此外,这种额外的“小负担”扩散模型的应用,不仅让 HART 保留了自回归模型的速度优势,还显著地增强了其生成复杂图像细节的能力。

这种方法的创新性在于它有效地平衡了速度与质量之间的矛盾,“如此一来,扩散模型的任务变得简单了许多,这就带来了更高的效率。”他补充道。

超越强大模型

在开发 HART 的过程中,研究人员面临了如何有效地将扩散模型与自回归模型结合以提升图像生成质量的挑战。

他们的初期尝试表明,在自回归过程的早期阶段引入扩散模型会导致错误累积,影响最终图像的质量。

为了解决这一问题,他们设计了一种策略,即仅在最后一步应用扩散模型来预测剩余标记,这不仅有效减少了错误积累,还显著提升了生成图像的整体质量。

这种新方法结合了一个拥有 7 亿参数的自回归变换模型和一个具有 3700 万参数的小型扩散模型。

尽管这两个组件的总参数量远小于某些顶级扩散模型(比如那些拥有 20 亿参数的扩散模型),但它们协作生成的图像质量却毫不逊色,同时处理速度提高了大约 9 倍。

此外,对比最先进的同类技术,这种方法所需的计算资源减少了大约 31%,大幅降低了运行成本和能耗。

由于 HART 主要依靠自回归模型(即驱动大语言模型的同类模型)完成大部分工作,因此它特别适合与新一代视觉-语言生成模型集成使用。

这意味着未来用户可以通过与这些智能系统互动,例如要求展示组装一件家具的具体步骤,从而获得更加直观、详细的指导。

“大语言模型可以作为各种类型模型之间的一个非常好的接口,比如多模态模型或推理模型,这是推动智能化向新领域发展的关键,高效的图像生成模型将解锁更多可能性。”Haotian Tang 表示。

展望未来,研究人员希望沿着这条路线继续深入探索,并基于 HART 架构进一步开发视觉-语言模型。

除此之外,鉴于 HART 具有良好的可扩展性和跨模式应用潜力,他们还打算将其应用于更广泛的领域,如视频生成和音频预测任务。

这样的拓展不仅能够丰富 HART 的应用场景,还有望为多媒体内容创作、虚拟现实等前沿技术的发展提供支持。

原文链接:

来源:麻省理工科技评论APP

相关推荐