摘要:在人工智能领域,苹果一直很低调,并不像 OpenAI,Google 这样的纯软件公司一样,为了刷榜单,不停更新自家的人工智能模型。反观苹果公司,很少发布自家的人工智能模型。
在人工智能领域,苹果一直很低调,并不像 OpenAI,Google 这样的纯软件公司一样,为了刷榜单,不停更新自家的人工智能模型。反观苹果公司,很少发布自家的人工智能模型。
STARFlow图片生成
而最近,苹果公司创造了一种全新的AI绘画模型(名叫STARFlow),它采用了和当前主流模型(如Stable Diffusion)不同的技术路线,但最终生成图片的效果一样好,甚至在某些方面更高效。
STARFlow图片生成
STARFlow是一种基于normalizing flows(一种数学方法,能把复杂数据转化为简单噪音,反之生成数据)的生成模型。核心是TARFlow(Transformer Autoregressive Flow),结合Transformer(像ChatGPT用的那种网络)和自回归流。
STARFlow图片生成模型
创新点:
理论基础:证明TARFlow能通用建模连续分布(意思是它能处理任何连续数据,如图像像素)。
架构创新:用“deep-shallow”设计——一个深层Transformer块捕获主要能力,后面跟几个浅层块(计算便宜但有用)。
latent space学习:不在原始像素上训练,而在预训练autoencoder(一种压缩图像的模型,如VAE)的潜在空间(latent space,压缩后的隐藏表示)中学习,更有效。
新指导算法:改善样本质量,尤其在文字条件生成中。
优势:整个模型是端到端的normalizing flows,支持精确最大似然训练(一种优化方式),不需要离散化(不像一些模型把图像量化成token)。结果接近扩散模型(如Stable Diffusion)的质量。这是第一次在这么大规模和高分辨率上证明normalizing flows有效。
STARFlow图片生成模型
要理解STARFlow的创新之处,我们首先要知道目前AI绘画主要有两条技术路线,而STARFlow开辟了第三条路。
扩散模型 (Diffusion Models):这是目前最主流、效果最好的路线,像Midjourney、Stable Diffusion都属于这类。
工作原理:想象一位雕塑家,他从一块充满随机噪点的“数字大理石”开始。他会一步步、非常精细地凿掉噪点,经过几十甚至上百个步骤,最终“雕刻”出一幅清晰的画。
优点:质量极高,细节丰富。
缺点:速度慢,因为需要一步步迭代“去噪”,计算成本高。
STARFlow图片生成
自回归模型 (Autoregressive Models):这类模型在语言处理领域(比如ChatGPT)非常成功,也被用在图像生成上。
工作原理:像一个画家在画画,但他必须严格按照从左到右、从上到下的顺序,一个像素一个像素地画。
优点:生成过程直接,速度相对较快。
缺点:因为是“一个接一个”地画,很难把握全局的整体感,而且为了简化计算,有时会牺牲色彩的丰富度,导致图像质量受限。
STARFlow图片生成
STARFlow的作者们认为,扩散模型虽然好但太慢,自回归模型虽然快但质量有瓶颈。于是,他们想走第三条路。
核心思想 - STARFlow的“第三条路”:归一化流 (Normalizing Flows)
STARFlow的核心技术叫做归一化流 (Normalizing Flows, NFs)。
工作原理比喻:想象你有一个非常简单的东西,比如一团均匀的橡皮泥(这代表随机噪点)。归一化流就像一台神奇的、可逆的“造型机”。
正向过程:你把这团简单的橡皮泥放进机器,它经过一系列精准的拉伸、扭曲、塑形,一步到位就变成了一个复杂的模型,比如一只猫(这就是最终的图像)。
逆向过程:这台机器最神奇的地方在于它是可逆的。你可以把这只“猫”放回机器,它能完美地把它变回最初那团简单的橡皮泥。
STARFlow图片生成
为什么这个技术好?
一步到位:它不像扩散模型需要很多步骤,理论上可以一次性完成转换,非常高效。
数学上严谨:因为它是可逆的,所以整个过程的数学计算非常“干净”,训练起来更稳定、更可控。
过去,归一化流技术在生成高分辨率图像上效果一直不好,很难扩展。而这篇论文的主要贡献就是解决了这个问题,让归一化流技术也能生成高质量的大图。
STARFlow图片生成
STARFlow的“四大法宝” - 它是如何做到的?
STARFlow之所以能成功,主要归功于四项关键的创新:
一:在“潜空间”里工作 (Learning in the Latent Space)
这是什么意思?:直接生成一张高清大图(比如1024x1024像素)计算量太大了。STARFlow借鉴了Stable Diffusion的成功经验,不直接画大图。
比喻:它不直接去雕刻一个真人大小的雕像,而是先精心雕刻一个小巧精致的微缩模型。这个微缩模型包含了所有关键信息(比如姿态、相貌),但尺寸小得多。雕刻完成后,再用一个“放大器”(论文里叫Decoder)把它完美地放大成真人大小的雕像。这个“微缩模型”所在的空间就叫“潜空间”。
效果:极大地降低了计算量,让模型可以专注于内容的创造,而不是像素的填充。
STARFlow图片生成
二:“深-浅”架构 (Deep-Shallow Architecture)
这是什么意思?:作者们发现,在“造型机”(归一化流模型)的设计上,不是所有环节都同等重要。他们设计了一种更聪明的结构。
比喻:这个“造型机”分为两个部分:
一个“资深总设计师”(深层模块):它负责最关键的第一步,把随机的橡皮泥塑造成大致的轮廓和结构,比如“一只猫在睡觉”。这个模块非常强大和复杂。
一群“细节打磨工”(浅层模块):它们接过总设计师的作品,进行后续的精细打磨,比如添加猫的毛发质感、光影细节等。这些模块相对简单和轻量。
效果:这种设计把计算资源集中在最关键的地方,既保证了图像的整体质量,又提高了效率。
STARFlow图片生成
三:“Transformer自回归流” (TARFlow) 作为积木
这是什么意思?:这是构成“造型机”的基本模块。它结合了两种强大技术的优点:Transformer(和ChatGPT用的一样,非常擅长理解上下文关系)和自回归流(一种高效的流模型)。
简单理解:你可以把它看作是一种非常强大的、专门为图像生成设计的“乐高积木”,用它来搭建上面提到的“深-浅”架构,效果特别好。
STARFlow图片生成
四:新的“引导”算法 (Novel Guidance Algorithm)
这是什么意思?:AI绘画时,我们希望模型能严格听从我们的指令,比如“一只戴着红色帽子的狗”。“引导”(Guidance)就是一种让模型更贴近指令的技术。
问题:以前的引导算法,如果强度调得太高(比如你反复强调“必须是正红色!”),模型就容易“崩溃”,生成奇怪、扭曲的图像。
STARFlow的创新:他们提出了一种更稳定、更强大的新引导算法。即使把引导强度调得很高,STARFlow也能稳定地生成高质量、高相关的图像。从论文的图5可以看出,旧方法在引导权重高时图像崩坏了,而STARFlow的方法依然清晰。
STARFlow图片生成
STARFlow表现如何?
效果惊人:从论文中的各种对比表格可以看出,STARFlow在标准的图像生成质量评分(FID,分数越低越好)上,取得了和顶尖的扩散模型、自回归模型相当甚至更好的成绩。 这证明了归一化流这条技术路线是完全可行的。
STARFlow图片生成模型参数
无训练修复(Training-Free Inpainting):掩码区域填噪音,反向采样修复。
交互生成和编辑:fine-tune on 编辑数据集,支持文字指令编辑。可逆性允许直接编码图像。
STARFlow图片生成
多功能:论文中的图片还展示了STARFlow不仅能从文字生成图片,还能进行图像编辑(比如把长椅的颜色改成蓝色)和图像修复(inpainting),功能非常强大。
STARFlow图片生成
它首次证明了“归一化流”这种技术可以被扩展,用于生成媲美顶级模型的高分辨率图像,为AI生成领域开辟了除扩散和自回归之外的第三条可行路线。通过潜空间学习、深-浅架构、TARFlow模块和新的引导算法这四大创新,成功解决了归一化流模型的扩展性难题。
STARFlow图片生成
作为苹果公司的研究成果,STARFlow展示了其在AI基础模型领域的深厚技术积累,其高效和高质量的特性在未来可能会应用到各类产品中。
来源:人工智能研究所