这款国产编程模型在海外悄悄爆火!开发者化身“自来水”,超强性价比

B站影视 内地电影 2025-10-14 22:22 1

摘要:一款国产编程模型,在海外狂飙的15天。作者 |陈骏达编辑 |漠影这款国产编程模型,正在海外悄悄爆火!国庆前夕,国产开源AI迎来一波集中发布,体验中国制造的开源模型,成了一众海外开发者们今年独特的“国庆七天乐”。在X平台、Reddit和YouTube上,智谱于9

一款国产编程模型,在海外狂飙的15天。作者 |陈骏达编辑 |漠影这款国产编程模型,正在海外悄悄爆火!国庆前夕,国产开源AI迎来一波集中发布,体验中国制造的开源模型,成了一众海外开发者们今年独特的“国庆七天乐”。在X平台、Reddit和YouTube上,智谱于9月30日发布的GLM-4.6凭借其编程性能和价格优势,已经成为开发者社区热议的焦点。“GLM-4.6是我用过最棒的编程模型”“这是我用过最具性价比的编程助手”,不少一线开发者在亲身体验后给出高度评价。还有多位海外AI领域的知名创业者、KOL专门发文推荐。以GLM-4.6为关键词在YouTube搜索,已经能找到十几条深度测评视频,从开发体验到部署教程全都覆盖了。作为智谱GLM系列模型的最新成员,GLM-4.6不仅在多项基准测试上超过了DeepSeek-V3.2-Exp等国产开源模型,还在编程领域实现了媲美Claude Sonnet 4的性能,然而价格仅为后者的1/7。从发布之初的广受关注到如今在海外社区的持续发酵,GLM-4.6正上演着一场技术领域的“墙内开花墙外香”,成为中国AI走向世界舞台的又一成功案例。01.GLM-4.6编程被玩疯了海外AI博主化身“自来水”

一款模型究竟好不好用,一线开发者们最有发言权。在海外,已有不少开发者对GLM-4.6进行了广泛测试,并分享了真实案例。多条GLM-4.6的测评帖在海外社媒的阅读量达到数十万次,这些帖子的互动量也较为可观,显示出开发者们对这款新模型的关注。X平台上最大的Vibe Coding社区发起者Wes Winder分享,GLM-4.6在网页设计方面的表现几乎和Claude Sonnet系列模型相仿。

AI编程软件公司Finalpoint的联合创始人Jeremy Mack在GLM-4.6发布当天就上手实测。他称,自己实测中所有的案例都是一次生成的,未经修改。

Jeremy Mack认为,与Claude Sonnet、GPT-5等模型相比,GLM-4.6在设计上不会固执己见,采取了极简主义的风格,功能完备。该模型在经典的小球弹跳测试题上做得恰到好处。不过,要在生产环境中发挥效用,GLM-4.6还需与现有的CLI、IDE工具实现较好的协同效应。Hugging Face产品主管Victor M分享道,他使用opencode+GLM-4.6的组合编程了一整天,体验基本和Claude Code类似,但前者超级便宜。

Cline的产品营销经理Nick Baumann用Cline上的数百万个差异编辑数据,比较了GLM-4.6与Claude Sonnet 4.5之间的成功率表现。数据显示,GLM-4.6的成功率为94.9%,而Claude Sonnet 4.5的成功率为96.2%。Baumann称,虽然差异编辑并不是衡量编程模型能力的唯一标准,不过,在3个月前,GLM与Claude的差距还在5-10个百分点左右。

一位苹果的AI工程师Awni Hannun分享了GLM-4.6在M3 Ultra芯片上的运行速度,该模型的量化版本能在M3 Ultra以每秒17个token以上的速度推理。Hannun还认为,GLM-4.6的基准测试结果即便和最新发布的Claude Sonnet 4.5相比也很有竞争力。

在编程之外,GLM-4.6的写作与叙事能力也成为不少海外用户热议的亮点。有一群AI创意写作爱好者在Reddit上分享了他们的体验,认为GLM-4.6在角色扮演(RP)、叙事创作以及人物塑造方面表现突出。

不少用户提到,GLM-4.6的最大魅力在于它能进入角色的内心,能真正捕捉场景中的细微情感差别。

而另一位用户则称赞GLM-4.6“能让角色与你争论,而且他们的逻辑往往令人信服”;还有人提到GLM-4.6对角色服装、外貌的描述更具一致性。这种对情感与人物的精准把握,使得GLM-4.6在沉浸式对话和长篇叙事中的表现出色。

总而言之,在角色扮演、写作等任务上,许多创作者认为GLM-4.6的对话更加真实、富有情感,且在避免“积极性偏见”(即过于迎合用户、回避冲突)方面做得不错,已经成为许多文字创作者的新宠。关于GLM-4.6的讨论不仅出现在X平台与Reddit上,更延伸至YouTube平台——众多AI博主带来了视角多元的深度分析。拥有接近50万关注者的博主Theo分享,他通过Kilo Code测试GLM-4.6模型,要求GLM-4.6展示React新推出的Activity API。这个案例具有一定的挑战性。Activity API是React最近才新增的功能,模型可能并没有接受过相关训练;其次,为了完成任务,模型必须具备主动搜索网络信息的能力,以理解并使用这一全新的API。在实际执行过程中,GLM-4.6生成的初版示例代码出现了小错误,不过当Theo指出后,模型几乎立刻就找出了问题并成功解决。最终的结果令人印象深刻:程序运行稳定,界面设计也非常精美。虽然整体风格与Theo平时所见略有不同,但GLM-4.6展现出了高效的错误修复能力和优秀的界面设计水平。Theo称这比他平时从Claude获得的结果还要好。

博主Bijan Bowen则发布了一则30分钟的深度测评,全面考察了GLM-4.6在多种任务类型上的表现。该模型不仅在打造网页游戏、物理模拟等编程任务上表现出色,还在角色扮演任务上实现了准确又引人入胜的语气和写作风格。Bijan Bowen直呼:“这可能是我迄今为止测试过的最令人印象深刻的开源模型。”

高性价比是YouTube AI博主们对这款模型的另一大印象。YouTube AI博主Fabio Bergmann称,GLM Coding Plan每月3美元的起始价格,与Claude Code动辄数百美元的订阅方案相比,简直“疯狂”。他认为,市面上没有其他模型能以相同的价格提供GLM-4.6所表现出的性能。

02.冲至竞技场开源第一企业正用token投票

在获得开发者群体认可的同时,GLM-4.6也在多项权威榜单和真实调用数据上展现出优势。在全球最受关注的大模型对战平台LMArena 上,GLM-4.6表现十分抢眼。发布后3天,GLM-4.6在Text Arena上的综合成绩并列全球第四,在开源模型中位居全球第一,同时也在国内模型中并列第一。

更值得注意的是,当排除风格控制因素、聚焦于内容生成真实能力时,GLM-4.6的得分升至全球第二,仅次于谷歌的Gemini 2.5 Pro。

而在所有模型的胜率榜单中,它位列全球第二,展现出在多领域任务上的稳定性能。

在编程能力方面,GLM-4.6于CC-Bench-V1.1评测中超过了多款国产开源模型,其整体胜率已超过Claude Sonnet 4这款编程领域的标杆模型,具备了与国际顶尖闭源模型同台竞技的实力。

此外,在全球知名开发者平台Factory AI的最新评估中,GLM-4.6在Terminal-Bench全部开源模型中排名第一,甚至超越了Claude Code中的Claude Sonnet 4。Factory作为海外领先的AI Agent与开发自动化平台,其评估结果被全球开发者广泛参考。据悉,GLM-4.6是首款在该榜单上登顶的国产开源模型。此外,它还被正式纳入Factory的Droid生态系统,这意味着全球开发者能更“即插即用”地使用这一模型。

在前端设计代码能力的Design Arena测评中,GLM-4.6同样表现出色,仅次于Claude与GPT系列,进一步验证了其在复杂指令理解与界面布局推理方面的成熟度。

除了评测成绩亮眼,GLM-4.6的实际使用热度也在迅速攀升。根据全球多模型聚合平台OpenRouter的最新统计,GLM-4.6已成为开发者调用频率最高的模型之一。GLM-4.6一度在在平台热度趋势榜上排名第一,模型日榜位列第十一,API的付费调用量位居国内第一。

同时,智谱作为模型厂商,整体调用量排名已升至全球第七。

OpenRouter作为全球最具影响力的AI模型聚合与调用平台之一,其数据源于真实开发者的使用行为,极具代表性和权威性。平台活跃度与付费情况反映了模型在实际开发与应用中的价值。GLM-4.6在OpenRouter上的持续走高,说明它不仅受到个人开发者的青睐,也正赢得越来越多企业级用户的信任与部署。03.编程持续成为AI竞逐焦点国产SOTA级模型意义何在?

编程模型,在过去很长一段时间以来一直是各大模型厂商竞逐的焦点。编程这一应用场景之所以特殊,在于它要求模型不仅要理解人类自然语言的模糊性,还要精准地转换为机器可执行的严谨逻辑。从产品经理的需求描述到可运行的产品原型,从模糊的业务逻辑到健壮的系统架构,这一过程全面考验着模型的逻辑推理、上下文理解和创造性解决问题的能力。正因如此,一个在编程任务上表现卓越的模型,其价值远不止于提升开发效率,更代表着在核心认知能力上的突破。然而,适用于编程场景的大模型长期被Claude、GPT等少数海外闭源大模型家族主导。当全球开发者的生产力工具高度集中于少数几家美国大模型厂商时,配套的技术供应链便存在较大风险。此前,Claude、GPT系列模型都曾出现的断供风波,就是最好的印证。此次,GLM-4.6不仅打造出了一款SOTA级别的开源编程模型,还在国产模型与国产芯片的适配上实现突破。GLM-4.6发布当天,寒武纪与摩尔线程就实现了Day 0适配。GLM-4.6能在寒武纪的国产芯片上实现FP8+Int4混合量化部署,保持精度不变,但能大幅度降低推理成本。摩尔线程基于vLLM推理框架完成了对GLM-4.6的适配,新一代GPU可在原生FP8精度下稳定运行模型。更重要的是,上述方案不会仅仅停留在实验室,还即将通过智谱MaaS平台正式面向大众和企业提供服务,让产业真正从中受益,也为打造更为独立自主的国产AI生态做出了贡献。中国AI模型已在一次次迭代中,摆脱了“廉价替代品”的刻板印象,转而成为全球AI生态中不可或缺的力量。它们或凭借独特优势与海外模型形成强力互补,或在特定场景中完美取代昂贵方案,为用户提供兼具价格优势与性能的选择。当海外开发者开始主动测试、比较并最终选择中国模型时,这种转变所带来的机遇,远超出单纯的市场份额竞争。04.结语:当中国AI赢得全球开发者之心

从今年年初的DeepSeek-R1,到万亿参数大模型Kimi-K2,再到开源SOTA编程模型GLM-4.6,中国大模型厂商们正在一步一步改变全球开发者和企业对中国AI技术的认知。智谱敏锐地把握住了这一趋势,在国际化布局上动作频频:他们今年启用了更具国际范儿的z.ai域名,还与全球开源社区、开发者社区加强了互动。这些举措,正逐渐树立国内大模型玩家作为全球AI生态的积极参与者的形象。以智谱为代表的中国企业,已在全球AI舞台上扮演着越来越重要的角色。

来源:新浪财经

相关推荐