摘要:苹果把FastVLM和MobileCLIP2扔上Hugging Face,等于把一台小型超算塞进了裤兜。
“快85倍”这四个字一出现,朋友圈的开发者群直接炸了。
苹果把FastVLM和MobileCLIP2扔上Hugging Face,等于把一台小型超算塞进了裤兜。
有人立刻拿iPhone 12 Pro Max跑了个相册搜索“红色雨伞”,结果不到半秒,连去年在京都拍的那张都翻出来了。
FastVLM的爽点简单粗暴:首字延迟低到离谱。
官方说比竞品快85倍,实测在地铁里4G信号下,实时字幕几乎跟主播嘴型同步,字幕条像被磁铁吸住一样贴着画面走。
秘诀是那个FastViTHD编码器,把高分辨率图像拆成动态token,像把一张4K海报撕成便利贴,只挑有用的贴上去,算力瞬间瘦身。
MobileCLIP2走的另一条路:轻。
体积砍半,精度没掉。
在ImageNet零样本测试里跟SigLIP打成平手,但跑在iPhone上延迟只有对方的1/2.5。离线场景最香,飞机上没网,用它翻译日料菜单,拍一张出一句,连“炙り鲣のタタキ”这种生僻词都翻得明明白白。
苹果这次连Demo都准备好了,Safari打开就能玩。
WebGPU直接调用A17 Pro的GPU,实时字幕像弹幕一样飘在视频上方。
开发者更开心,Core ML工具链一键打包,Swift Transformers把模型塞进App,连神经引擎的功耗都帮你算好。
社区里最激动的其实是视障用户。
FastVLM的屏幕阅读器模式,能把直播里的弹幕实时念出来,语速、停顿、情绪词都能识别。
一位盲人博主录了条视频,说“终于不用等别人告诉我弹幕在笑什么了”。
当然,坑也有。
WebGPU在旧机型上偶尔抽风,iPhone X跑MobileCLIP2会烫手,电量肉眼可见往下掉。
但苹果把路铺平了:模型、Demo、工具链全开源,相当于把菜谱、锅、火一起递给你,能不能炒出好菜看手艺。
FastVLM适合谁?
剪视频、做直播、拍Vlog的,实时字幕能救命。
MobileCLIP2更适合旅行党、离线党、隐私洁癖,飞机上、地铁里、深山老林都能用。
两者混着用,一个跑实时,一个跑本地,手机瞬间变成瑞士军刀。
下一步?
等iPhone 16的散热和电池再升级,估计会有开发者把这两个模型塞进AR眼镜里。
到时候,抬头看路牌,翻译直接飘在眼前,科幻片成真。
你手机里最想先试试哪个功能?
相册搜索、实时字幕,还是离线翻译?
来源:枝上啼叫的杜鹃