苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒

B站影视 欧美电影 2025-09-11 17:37 1

摘要:苹果把FastVLM和MobileCLIP2扔上Hugging Face,等于把一台小型超算塞进了裤兜。

“快85倍”这四个字一出现,朋友圈的开发者群直接炸了。

苹果把FastVLM和MobileCLIP2扔上Hugging Face,等于把一台小型超算塞进了裤兜。

有人立刻拿iPhone 12 Pro Max跑了个相册搜索“红色雨伞”,结果不到半秒,连去年在京都拍的那张都翻出来了。

FastVLM的爽点简单粗暴:首字延迟低到离谱。

官方说比竞品快85倍,实测在地铁里4G信号下,实时字幕几乎跟主播嘴型同步,字幕条像被磁铁吸住一样贴着画面走。

秘诀是那个FastViTHD编码器,把高分辨率图像拆成动态token,像把一张4K海报撕成便利贴,只挑有用的贴上去,算力瞬间瘦身。

MobileCLIP2走的另一条路:轻。

体积砍半,精度没掉。

在ImageNet零样本测试里跟SigLIP打成平手,但跑在iPhone上延迟只有对方的1/2.5。离线场景最香,飞机上没网,用它翻译日料菜单,拍一张出一句,连“炙り鲣のタタキ”这种生僻词都翻得明明白白。

苹果这次连Demo都准备好了,Safari打开就能玩。

WebGPU直接调用A17 Pro的GPU,实时字幕像弹幕一样飘在视频上方。

开发者更开心,Core ML工具链一键打包,Swift Transformers把模型塞进App,连神经引擎的功耗都帮你算好。

社区里最激动的其实是视障用户。

FastVLM的屏幕阅读器模式,能把直播里的弹幕实时念出来,语速、停顿、情绪词都能识别。

一位盲人博主录了条视频,说“终于不用等别人告诉我弹幕在笑什么了”。

当然,坑也有。

WebGPU在旧机型上偶尔抽风,iPhone X跑MobileCLIP2会烫手,电量肉眼可见往下掉。

但苹果把路铺平了:模型、Demo、工具链全开源,相当于把菜谱、锅、火一起递给你,能不能炒出好菜看手艺。

FastVLM适合谁?

剪视频、做直播、拍Vlog的,实时字幕能救命。

MobileCLIP2更适合旅行党、离线党、隐私洁癖,飞机上、地铁里、深山老林都能用。

两者混着用,一个跑实时,一个跑本地,手机瞬间变成瑞士军刀。

下一步?

等iPhone 16的散热和电池再升级,估计会有开发者把这两个模型塞进AR眼镜里。

到时候,抬头看路牌,翻译直接飘在眼前,科幻片成真。

你手机里最想先试试哪个功能?

相册搜索、实时字幕,还是离线翻译?

来源:枝上啼叫的杜鹃

相关推荐