阿里Qwen3-Omni登顶全球开源模型榜!211ms延迟太惊艳!

B站影视 内地电影 2025-10-01 01:57 1

摘要:Hugging Face 排行页面刷新那一刻,GPT-4o 的名字被挤到第二行,Gemini 2.5 Pro 滑到第三行,页面顶端的 Qwen3-Omni 像刚贴上去的新告示,告诉所有人:免费模型也能把付费模型按在地上。

211毫秒,声音刚出口,模型已经把话回完,这不是科幻,是阿里把开源榜单直接掀桌。

Hugging Face 排行页面刷新那一刻,GPT-4o 的名字被挤到第二行,Gemini 2.5 Pro 滑到第三行,页面顶端的 Qwen3-Omni 像刚贴上去的新告示,告诉所有人:免费模型也能把付费模型按在地上。

36 项基准测试,不是刷分,是逐项拆台:长音频理解、视频时序定位、方言语音识别,闭源团队要收钱的场景,它直接零元赠送。

507 毫秒的视频延迟,比人类眨眼还短,直播带货的主播还没说完“家人们”,后台已经生成字幕、切片、摘要、标签,一条流水线跑完,运营成本直接砍半。

阿里把 24GB 显存门槛摆出来,就是算给中小企业看的:一张 4090 就能跑,不用八卡 A100。

显存压得越低,落地越快,开发者省下的不是电费,是融资时间。

下载量一周 50 万,平均每小时 3000 次,GitHub 上 fork 数爬升曲线像心电图,Reddit 热帖里有人晒出自己用树莓派跑通的截图,点赞 1.2 万。

这不是炫技,是告诉华尔街:闭源 API 的护城河被挖开缺口,水正往外流。

AuT 预训练砸进 2000 万小时多语语音,粤语、闽南语、川话一起喂,模型学到的不是标准播音腔,而是菜市场砍价、地铁报站、直播间喊口号。

Thinker-Talker 把推理和表达拆开,像把大脑和嘴巴分成两个部门,大脑专心算,嘴巴专心说,各不拖后腿,避免“全能但全松”的通病。

这套打法公开写在博客,代码同步扔仓库,等于把厨师菜谱和灶台一起送人,别人想抄,锅铲都准备好了。

工信部文件里那句“支持国产开源”话音刚落,Qwen3-Omni 登顶截图就被媒体放在文件旁边,时间卡得精准,像排练好的舞台剧。

政策需要样板,阿里递上答卷,双方各取所需:官方拿到“自主可控”案例,阿里拿到采购和国企订单的入场券。

闭源模型再强,拿不到政策背书,在招投标里只能坐冷板凳。

实时手语翻译、会议纪要、车载语音、远程问诊,这些场景的共同点是“延迟大于 500 毫秒就翻车”。

211 毫秒像一道安全线,把体验从“能用”推到“好用”。

初创公司拿到模型,三天内就能拼出 demo,VC 看完当场拍板,省下的不是开发费,是窗口期。

教育公司把课堂视频扔进去,五分钟后生成带知识点的切片,老师还没下课,短视频账号已经更新,流量跑在同行前面。

有人算过账:同样一万小时语音调用,GPT-4o 官方 API 标价 1.2 万美元,Qwen3-Omni 零元,电费 80 美元,成本差出 150 倍。

闭源团队再降也降不到零,开源只要一次发布,边际成本就是零。

这个差距不是价格战,是商业模式的代差。

西方巨头靠 API 收费养团队,阿里靠云服务和生态回本,模型本身当引流品,逻辑和超市送鸡蛋一样直接:先进门,再消费。

登顶只是一张快照,真正的杀招是后续迭代。

社区开发者提交的 issue 里,有人已经跑通 4K 视频理解,有人把模型塞进 AR 眼镜,实时给外国人指路。

代码公开,优化方向全球共享,下一次更新不用等阿里,社区自己就能卷出新版本。

闭源团队再快,也快不过全球程序员一起熬夜。

开源的飞轮一旦转起来,闭源城墙只能一块砖一块砖掉。

延迟 211 毫秒,免费,还能改源码,如果这都不够用,我们到底想要多快的AI?

来源:勇敢的饭团dX

相关推荐