难得一见,苹果公司发布 AI绘画模型—— STARFlow 高分辨率 AI模型

B站影视 欧美电影 2025-10-01 07:01 1

摘要:在人工智能领域,苹果一直很低调,并不像 OpenAI,Google 这样的纯软件公司一样,为了刷榜单,不停更新自家的人工智能模型。反观苹果公司,很少发布自家的人工智能模型。

在人工智能领域,苹果一直很低调,并不像 OpenAI,Google 这样的纯软件公司一样,为了刷榜单,不停更新自家的人工智能模型。反观苹果公司,很少发布自家的人工智能模型。

STARFlow图片生成

而最近,苹果公司创造了一种全新的AI绘画模型(名叫STARFlow),它采用了和当前主流模型(如Stable Diffusion)不同的技术路线,但最终生成图片的效果一样好,甚至在某些方面更高效。

STARFlow图片生成

STARFlow是一种基于normalizing flows(一种数学方法,能把复杂数据转化为简单噪音,反之生成数据)的生成模型。核心是TARFlow(Transformer Autoregressive Flow),结合Transformer(像ChatGPT用的那种网络)和自回归流。

STARFlow图片生成模型

创新点:

理论基础:证明TARFlow能通用建模连续分布(意思是它能处理任何连续数据,如图像像素)。

架构创新:用“deep-shallow”设计——一个深层Transformer块捕获主要能力,后面跟几个浅层块(计算便宜但有用)。

latent space学习:不在原始像素上训练,而在预训练autoencoder(一种压缩图像的模型,如VAE)的潜在空间(latent space,压缩后的隐藏表示)中学习,更有效。

新指导算法:改善样本质量,尤其在文字条件生成中。

优势:整个模型是端到端的normalizing flows,支持精确最大似然训练(一种优化方式),不需要离散化(不像一些模型把图像量化成token)。结果接近扩散模型(如Stable Diffusion)的质量。这是第一次在这么大规模和高分辨率上证明normalizing flows有效。

STARFlow图片生成模型

要理解STARFlow的创新之处,我们首先要知道目前AI绘画主要有两条技术路线,而STARFlow开辟了第三条路。

扩散模型 (Diffusion Models):这是目前最主流、效果最好的路线,像Midjourney、Stable Diffusion都属于这类。

工作原理:想象一位雕塑家,他从一块充满随机噪点的“数字大理石”开始。他会一步步、非常精细地凿掉噪点,经过几十甚至上百个步骤,最终“雕刻”出一幅清晰的画。

优点:质量极高,细节丰富。

缺点:速度慢,因为需要一步步迭代“去噪”,计算成本高。

STARFlow图片生成

自回归模型 (Autoregressive Models):这类模型在语言处理领域(比如ChatGPT)非常成功,也被用在图像生成上。

工作原理:像一个画家在画画,但他必须严格按照从左到右、从上到下的顺序,一个像素一个像素地画。

优点:生成过程直接,速度相对较快。

缺点:因为是“一个接一个”地画,很难把握全局的整体感,而且为了简化计算,有时会牺牲色彩的丰富度,导致图像质量受限。

STARFlow图片生成

STARFlow的作者们认为,扩散模型虽然好但太慢,自回归模型虽然快但质量有瓶颈。于是,他们想走第三条路。

核心思想 - STARFlow的“第三条路”:归一化流 (Normalizing Flows)

STARFlow的核心技术叫做归一化流 (Normalizing Flows, NFs)。

工作原理比喻:想象你有一个非常简单的东西,比如一团均匀的橡皮泥(这代表随机噪点)。归一化流就像一台神奇的、可逆的“造型机”。

正向过程:你把这团简单的橡皮泥放进机器,它经过一系列精准的拉伸、扭曲、塑形,一步到位就变成了一个复杂的模型,比如一只猫(这就是最终的图像)。

逆向过程:这台机器最神奇的地方在于它是可逆的。你可以把这只“猫”放回机器,它能完美地把它变回最初那团简单的橡皮泥。

STARFlow图片生成

为什么这个技术好?

一步到位:它不像扩散模型需要很多步骤,理论上可以一次性完成转换,非常高效。

数学上严谨:因为它是可逆的,所以整个过程的数学计算非常“干净”,训练起来更稳定、更可控。

过去,归一化流技术在生成高分辨率图像上效果一直不好,很难扩展。而这篇论文的主要贡献就是解决了这个问题,让归一化流技术也能生成高质量的大图。

STARFlow图片生成

STARFlow的“四大法宝” - 它是如何做到的?

STARFlow之所以能成功,主要归功于四项关键的创新:

一:在“潜空间”里工作 (Learning in the Latent Space)

这是什么意思?:直接生成一张高清大图(比如1024x1024像素)计算量太大了。STARFlow借鉴了Stable Diffusion的成功经验,不直接画大图。

比喻:它不直接去雕刻一个真人大小的雕像,而是先精心雕刻一个小巧精致的微缩模型。这个微缩模型包含了所有关键信息(比如姿态、相貌),但尺寸小得多。雕刻完成后,再用一个“放大器”(论文里叫Decoder)把它完美地放大成真人大小的雕像。这个“微缩模型”所在的空间就叫“潜空间”。

效果:极大地降低了计算量,让模型可以专注于内容的创造,而不是像素的填充。

STARFlow图片生成

二:“深-浅”架构 (Deep-Shallow Architecture)

这是什么意思?:作者们发现,在“造型机”(归一化流模型)的设计上,不是所有环节都同等重要。他们设计了一种更聪明的结构。

比喻:这个“造型机”分为两个部分:

一个“资深总设计师”(深层模块):它负责最关键的第一步,把随机的橡皮泥塑造成大致的轮廓和结构,比如“一只猫在睡觉”。这个模块非常强大和复杂。

一群“细节打磨工”(浅层模块):它们接过总设计师的作品,进行后续的精细打磨,比如添加猫的毛发质感、光影细节等。这些模块相对简单和轻量。

效果:这种设计把计算资源集中在最关键的地方,既保证了图像的整体质量,又提高了效率。

STARFlow图片生成

三:“Transformer自回归流” (TARFlow) 作为积木

这是什么意思?:这是构成“造型机”的基本模块。它结合了两种强大技术的优点:Transformer(和ChatGPT用的一样,非常擅长理解上下文关系)和自回归流(一种高效的流模型)。

简单理解:你可以把它看作是一种非常强大的、专门为图像生成设计的“乐高积木”,用它来搭建上面提到的“深-浅”架构,效果特别好。

STARFlow图片生成

四:新的“引导”算法 (Novel Guidance Algorithm)

这是什么意思?:AI绘画时,我们希望模型能严格听从我们的指令,比如“一只戴着红色帽子的狗”。“引导”(Guidance)就是一种让模型更贴近指令的技术。

问题:以前的引导算法,如果强度调得太高(比如你反复强调“必须是正红色!”),模型就容易“崩溃”,生成奇怪、扭曲的图像。

STARFlow的创新:他们提出了一种更稳定、更强大的新引导算法。即使把引导强度调得很高,STARFlow也能稳定地生成高质量、高相关的图像。从论文的图5可以看出,旧方法在引导权重高时图像崩坏了,而STARFlow的方法依然清晰。

STARFlow图片生成

STARFlow表现如何?

效果惊人:从论文中的各种对比表格可以看出,STARFlow在标准的图像生成质量评分(FID,分数越低越好)上,取得了和顶尖的扩散模型、自回归模型相当甚至更好的成绩。 这证明了归一化流这条技术路线是完全可行的。

STARFlow图片生成模型参数

无训练修复(Training-Free Inpainting):掩码区域填噪音,反向采样修复。

交互生成和编辑:fine-tune on 编辑数据集,支持文字指令编辑。可逆性允许直接编码图像。

STARFlow图片生成

多功能:论文中的图片还展示了STARFlow不仅能从文字生成图片,还能进行图像编辑(比如把长椅的颜色改成蓝色)和图像修复(inpainting),功能非常强大。

STARFlow图片生成

它首次证明了“归一化流”这种技术可以被扩展,用于生成媲美顶级模型的高分辨率图像,为AI生成领域开辟了除扩散和自回归之外的第三条可行路线。通过潜空间学习、深-浅架构、TARFlow模块和新的引导算法这四大创新,成功解决了归一化流模型的扩展性难题。

STARFlow图片生成

作为苹果公司的研究成果,STARFlow展示了其在AI基础模型领域的深厚技术积累,其高效和高质量的特性在未来可能会应用到各类产品中。

来源:人工智能研究所

相关推荐