摘要:在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。
机器之心报道
编辑:冷猫
苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。
而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。
再叠加上近期苹果 AI 团队和硬件团队的人才流失,这一切似乎对苹果而言都不是太乐观。
虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。
在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。
但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。
然而,视觉 AI 仍然呈现出割裂状态,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。
为此,Apple 研究团队提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这一核心局限,提出了首个能够在所有主要视觉模态上进行统一处理的视觉分词器,并同时兼顾重建质量与语义理解。
这一成果标志着朝着创建具备 通用性与泛化能力的视觉表征 迈出了重要一步。
AToken 是首个在图像、视频和三维资产上同时实现高保真重建与语义理解的统一视觉分词器。与现有仅针对单一模态、专注于重建或理解的分词器不同,AToken 将多样化的视觉输入编码到共享的 四维潜在空间 中,在单一框架下统一了任务与模态。
具体而言,研究团队引入了 纯 Transformer 架构,并采用 四维旋转位置嵌入 来处理任意分辨率与时长的视觉输入。为确保训练稳定性,研究团队提出了一种 无对抗的训练目标,结合感知损失与 Gram 矩阵损失,实现了最先进的重建质量。同时,通过 渐进式训练,AToken 从单张图像逐步扩展到视频和三维资产,并支持 连续与离散潜在 token。
ATOKEN 在图像、视频和三维资产上实现了统一分词,通过共享的四维表示同时支持 高保真重建 与 语义理解任务。
核心创新:统一四维表示
ATOKEN 的核心创新在于提出了一个共享的稀疏 4D 潜在空间,将所有视觉模态表示为 特征–坐标对集合:
在这种表示下:
图像:对应于在时间和深度维度上 t=z=0 的二维切片;视频:沿时间轴展开(z=0),捕捉动态信息;三维资产:在 t=0 时占据空间维度 (x,y,z),以表面体素的形式表示。这种稀疏表示能够优雅地处理 任意分辨率与时序长度,并在单一架构下实现对多样化视觉格式的原生处理。基于这一统一潜在表示,系统分别导出两个投影:用于 重建任务的 z_r 和用于 语义理解的 z_s,并可选用 有限标量量化(FSQ) 以支持离散分词。
Transformer 架构
ATOKEN 架构采用稀疏 Transformer 编码器 - 解码器,具有 4D RoPE 定位、无对抗训练和用于重建与理解的双目标优化。
ATOKEN 采用纯 Transformer 架构,超越了传统的卷积方法。该系统利用:
统一时空块嵌入:视觉输入被分成时空块,并进行时间零填充以保持模态间的一致性4D 旋转位置嵌入(RoPE):每个注意力层都包含所有四个维度的位置信息,保留空间和时间关系编码器扩展:基于预训练的 SigLIP2 视觉 Transformer 构建,泛化以处理 4D 时空处理,同时保留语义先验渐进式训练
四阶段的渐进式训练课程逐步构建模型能力,并证明多模态学习不仅不会削弱单一模态性能,反而能够增强。
ATOKEN 采用了精心设计的 四阶段训练课程:
阶段 1:以图像为基础,在预训练的 SigLIP2 上加入重建能力;阶段 2:引入视频动态建模,结合时间建模与 KV 缓存;阶段 3:集成三维几何,通过高斯泼溅(Gaussian Splatting)表示;阶段 4:通过 FSQ 量化实现离散分词。这一渐进式训练方法揭示了一个关键结论:多模态训练会增强而非削弱单一模态性能,这与传统上关于多目标学习中 「任务干扰」 的普遍认知相反。
实验结果与性能
ATOKEN 在各类评测指标上均表现出 业界领先或高度竞争力:
图像分词(Image Tokenization)
重建性能:在 ImageNet 上 16×16 压缩下取得 0.21 rFID,显著优于统一分词方法 UniTok(0.36 rFID)。语义理解:在 ImageNet 分类上保持 82.2% 准确率,与基础 SigLIP2 模型相比几乎无明显退化。ATOKEN 在大幅压缩比下仍能保持高质量图像重建,保留了精细的纹理、细节与文字清晰度。
视频处理(Video Processing)
重建性能:在 DAVIS 数据集上取得 3.01 rFVD 和 33.11 PSNR,与专门的视频模型性能相当。语义理解:在 MSRVTT 视频文本检索上达到 40.2% R@1,展现了有效的时序 - 语义建模能力。视频重建保持了与专用方法相当的时间一致性与运动流畅性,同时支持任意长度的视频序列。
三维资产处理(3D Asset Handling)
重建性能:在 Toys4k 数据集上实现 28.28 PSNR,超过了专门的 3D 分词器 Trellis-SLAT(26.97 PSNR)。语义理解:实现 90.9% 零样本分类准确率,验证了其强大的 3D 语义表示能力。图 7:3D 重建在颜色一致性上优于专用方法,这得益于 ATOKEN 在图像与视频训练中学到的跨模态颜色理解能力。
在下游应用中,AToken 同时支持生成任务(如基于连续与离散 token 的图像生成、文本生成视频、图像生成三维)和理解任务(如多模态大语言模型),并在各类基准上取得了有竞争力的性能。
这些结果表明,基于统一视觉分词的下一代多模态 AI 系统正逐渐成为现实。
更多细节,请参阅原论文
来源:机器之心Pro一点号