苹果端侧AI两连发，模型体积减半、首字延迟降85倍，iPhone离线秒

摘要：苹果把FastVLM和MobileCLIP2扔上Hugging Face，等于把一台小型超算塞进了裤兜。

“快85倍”这四个字一出现，朋友圈的开发者群直接炸了。

苹果把FastVLM和MobileCLIP2扔上Hugging Face，等于把一台小型超算塞进了裤兜。

有人立刻拿iPhone 12 Pro Max跑了个相册搜索“红色雨伞”，结果不到半秒，连去年在京都拍的那张都翻出来了。

FastVLM的爽点简单粗暴：首字延迟低到离谱。

官方说比竞品快85倍，实测在地铁里4G信号下，实时字幕几乎跟主播嘴型同步，字幕条像被磁铁吸住一样贴着画面走。

秘诀是那个FastViTHD编码器，把高分辨率图像拆成动态token，像把一张4K海报撕成便利贴，只挑有用的贴上去，算力瞬间瘦身。

MobileCLIP2走的另一条路：轻。

体积砍半，精度没掉。

在ImageNet零样本测试里跟SigLIP打成平手，但跑在iPhone上延迟只有对方的1/2.5。离线场景最香，飞机上没网，用它翻译日料菜单，拍一张出一句，连“炙り鲣のタタキ”这种生僻词都翻得明明白白。

苹果这次连Demo都准备好了，Safari打开就能玩。

WebGPU直接调用A17 Pro的GPU，实时字幕像弹幕一样飘在视频上方。

开发者更开心，Core ML工具链一键打包，Swift Transformers把模型塞进App，连神经引擎的功耗都帮你算好。

社区里最激动的其实是视障用户。

FastVLM的屏幕阅读器模式，能把直播里的弹幕实时念出来，语速、停顿、情绪词都能识别。

一位盲人博主录了条视频，说“终于不用等别人告诉我弹幕在笑什么了”。

当然，坑也有。

WebGPU在旧机型上偶尔抽风，iPhone X跑MobileCLIP2会烫手，电量肉眼可见往下掉。

但苹果把路铺平了：模型、Demo、工具链全开源，相当于把菜谱、锅、火一起递给你，能不能炒出好菜看手艺。

FastVLM适合谁？

剪视频、做直播、拍Vlog的，实时字幕能救命。

MobileCLIP2更适合旅行党、离线党、隐私洁癖，飞机上、地铁里、深山老林都能用。

两者混着用，一个跑实时，一个跑本地，手机瞬间变成瑞士军刀。

下一步？

等iPhone 16的散热和电池再升级，估计会有开发者把这两个模型塞进AR眼镜里。

到时候，抬头看路牌，翻译直接飘在眼前，科幻片成真。

你手机里最想先试试哪个功能？

相册搜索、实时字幕，还是离线翻译？

来源：枝上啼叫的杜鹃

标签： iphone 苹果模型体积首字

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!