fastvlm

苹果开源FastVLM，能在iphone直接运行的视觉语言模型

该模型引入了一种新型混合视觉编码器 FastViTHD ，融合了卷积层和 Transformer 模块，配合多尺度池化和下采样技术，把图片处理所需的「视觉 token」数量砍到极低 —— 比传统 ViT 少 16 倍，比 FastViT 少 4 倍。它以卓越的

机器之心报道作者：+0、刘欣FastVLM—— 让苹果手机拥有极速视觉理解能力当你用苹果手机随手拍图问 AI：「这是什么？」，背后的 FastVLM 模型正在默默解码。最近，苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM（F