难得一见，苹果公司发布 AI绘画模型—— STARFlow 高分辨率 AI模型

摘要：在人工智能领域，苹果一直很低调，并不像 OpenAI，Google 这样的纯软件公司一样，为了刷榜单，不停更新自家的人工智能模型。反观苹果公司，很少发布自家的人工智能模型。

在人工智能领域，苹果一直很低调，并不像 OpenAI，Google 这样的纯软件公司一样，为了刷榜单，不停更新自家的人工智能模型。反观苹果公司，很少发布自家的人工智能模型。

STARFlow图片生成

而最近，苹果公司创造了一种全新的AI绘画模型（名叫STARFlow），它采用了和当前主流模型（如Stable Diffusion）不同的技术路线，但最终生成图片的效果一样好，甚至在某些方面更高效。

STARFlow图片生成

STARFlow是一种基于normalizing flows（一种数学方法，能把复杂数据转化为简单噪音，反之生成数据）的生成模型。核心是TARFlow（Transformer Autoregressive Flow），结合Transformer（像ChatGPT用的那种网络）和自回归流。

STARFlow图片生成模型

创新点：

理论基础：证明TARFlow能通用建模连续分布（意思是它能处理任何连续数据，如图像像素）。

架构创新：用“deep-shallow”设计——一个深层Transformer块捕获主要能力，后面跟几个浅层块（计算便宜但有用）。

latent space学习：不在原始像素上训练，而在预训练autoencoder（一种压缩图像的模型，如VAE）的潜在空间（latent space，压缩后的隐藏表示）中学习，更有效。

新指导算法：改善样本质量，尤其在文字条件生成中。

优势：整个模型是端到端的normalizing flows，支持精确最大似然训练（一种优化方式），不需要离散化（不像一些模型把图像量化成token）。结果接近扩散模型（如Stable Diffusion）的质量。这是第一次在这么大规模和高分辨率上证明normalizing flows有效。

STARFlow图片生成模型

要理解STARFlow的创新之处，我们首先要知道目前AI绘画主要有两条技术路线，而STARFlow开辟了第三条路。

扩散模型 (Diffusion Models)：这是目前最主流、效果最好的路线，像Midjourney、Stable Diffusion都属于这类。

工作原理：想象一位雕塑家，他从一块充满随机噪点的“数字大理石”开始。他会一步步、非常精细地凿掉噪点，经过几十甚至上百个步骤，最终“雕刻”出一幅清晰的画。

优点：质量极高，细节丰富。

缺点：速度慢，因为需要一步步迭代“去噪”，计算成本高。

STARFlow图片生成

自回归模型 (Autoregressive Models)：这类模型在语言处理领域（比如ChatGPT）非常成功，也被用在图像生成上。

工作原理：像一个画家在画画，但他必须严格按照从左到右、从上到下的顺序，一个像素一个像素地画。

优点：生成过程直接，速度相对较快。

缺点：因为是“一个接一个”地画，很难把握全局的整体感，而且为了简化计算，有时会牺牲色彩的丰富度，导致图像质量受限。

STARFlow图片生成

STARFlow的作者们认为，扩散模型虽然好但太慢，自回归模型虽然快但质量有瓶颈。于是，他们想走第三条路。

核心思想 - STARFlow的“第三条路”：归一化流 (Normalizing Flows)

STARFlow的核心技术叫做归一化流 (Normalizing Flows, NFs)。

工作原理比喻：想象你有一个非常简单的东西，比如一团均匀的橡皮泥（这代表随机噪点）。归一化流就像一台神奇的、可逆的“造型机”。

正向过程：你把这团简单的橡皮泥放进机器，它经过一系列精准的拉伸、扭曲、塑形，一步到位就变成了一个复杂的模型，比如一只猫（这就是最终的图像）。

逆向过程：这台机器最神奇的地方在于它是可逆的。你可以把这只“猫”放回机器，它能完美地把它变回最初那团简单的橡皮泥。

STARFlow图片生成

为什么这个技术好？

一步到位：它不像扩散模型需要很多步骤，理论上可以一次性完成转换，非常高效。

数学上严谨：因为它是可逆的，所以整个过程的数学计算非常“干净”，训练起来更稳定、更可控。

过去，归一化流技术在生成高分辨率图像上效果一直不好，很难扩展。而这篇论文的主要贡献就是解决了这个问题，让归一化流技术也能生成高质量的大图。

STARFlow图片生成

STARFlow的“四大法宝” - 它是如何做到的？

STARFlow之所以能成功，主要归功于四项关键的创新：

一：在“潜空间”里工作 (Learning in the Latent Space)

这是什么意思？：直接生成一张高清大图（比如1024x1024像素）计算量太大了。STARFlow借鉴了Stable Diffusion的成功经验，不直接画大图。

比喻：它不直接去雕刻一个真人大小的雕像，而是先精心雕刻一个小巧精致的微缩模型。这个微缩模型包含了所有关键信息（比如姿态、相貌），但尺寸小得多。雕刻完成后，再用一个“放大器”（论文里叫Decoder）把它完美地放大成真人大小的雕像。这个“微缩模型”所在的空间就叫“潜空间”。

效果：极大地降低了计算量，让模型可以专注于内容的创造，而不是像素的填充。

STARFlow图片生成

二：“深-浅”架构 (Deep-Shallow Architecture)

这是什么意思？：作者们发现，在“造型机”（归一化流模型）的设计上，不是所有环节都同等重要。他们设计了一种更聪明的结构。

比喻：这个“造型机”分为两个部分：

一个“资深总设计师”（深层模块）：它负责最关键的第一步，把随机的橡皮泥塑造成大致的轮廓和结构，比如“一只猫在睡觉”。这个模块非常强大和复杂。

一群“细节打磨工”（浅层模块）：它们接过总设计师的作品，进行后续的精细打磨，比如添加猫的毛发质感、光影细节等。这些模块相对简单和轻量。

效果：这种设计把计算资源集中在最关键的地方，既保证了图像的整体质量，又提高了效率。

STARFlow图片生成

三：“Transformer自回归流” (TARFlow) 作为积木

这是什么意思？：这是构成“造型机”的基本模块。它结合了两种强大技术的优点：Transformer（和ChatGPT用的一样，非常擅长理解上下文关系）和自回归流（一种高效的流模型）。

简单理解：你可以把它看作是一种非常强大的、专门为图像生成设计的“乐高积木”，用它来搭建上面提到的“深-浅”架构，效果特别好。

STARFlow图片生成

四：新的“引导”算法 (Novel Guidance Algorithm)

这是什么意思？：AI绘画时，我们希望模型能严格听从我们的指令，比如“一只戴着红色帽子的狗”。“引导”（Guidance）就是一种让模型更贴近指令的技术。

问题：以前的引导算法，如果强度调得太高（比如你反复强调“必须是正红色！”），模型就容易“崩溃”，生成奇怪、扭曲的图像。

STARFlow的创新：他们提出了一种更稳定、更强大的新引导算法。即使把引导强度调得很高，STARFlow也能稳定地生成高质量、高相关的图像。从论文的图5可以看出，旧方法在引导权重高时图像崩坏了，而STARFlow的方法依然清晰。

STARFlow图片生成

STARFlow表现如何？

效果惊人：从论文中的各种对比表格可以看出，STARFlow在标准的图像生成质量评分（FID，分数越低越好）上，取得了和顶尖的扩散模型、自回归模型相当甚至更好的成绩。这证明了归一化流这条技术路线是完全可行的。

STARFlow图片生成模型参数

无训练修复（Training-Free Inpainting）：掩码区域填噪音，反向采样修复。

交互生成和编辑：fine-tune on 编辑数据集，支持文字指令编辑。可逆性允许直接编码图像。

STARFlow图片生成

多功能：论文中的图片还展示了STARFlow不仅能从文字生成图片，还能进行图像编辑（比如把长椅的颜色改成蓝色）和图像修复（inpainting），功能非常强大。

STARFlow图片生成

它首次证明了“归一化流”这种技术可以被扩展，用于生成媲美顶级模型的高分辨率图像，为AI生成领域开辟了除扩散和自回归之外的第三条可行路线。通过潜空间学习、深-浅架构、TARFlow模块和新的引导算法这四大创新，成功解决了归一化流模型的扩展性难题。

STARFlow图片生成

作为苹果公司的研究成果，STARFlow展示了其在AI基础模型领域的深厚技术积累，其高效和高质量的特性在未来可能会应用到各类产品中。

来源：人工智能研究所

标签：模型绘画苹果公司 starflow 造型机

本文地址：http://news.43b.com.cn/a/1457435.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐