模态GAP不存在了?图文领域首个token级大一统基座诞生 构建业内首个 token 级图文数据集 TokenIT:该数据集包含 2000 万条公开图像以及 18 亿高质量的 Token-Mask 对。图像中的每个 BPE 子词均对应一个像素级掩码。数据体量是 CLIP 的 5 倍,且比 SAM 多出 7 亿数据对。构 模态 gap 基座 token 模态gap 2025-03-18 19:15 3