啊????摘要:啊????不是,是我起猛了吗😧智谱的GLM-4.6居然排名到编程世界第一去了???和GPT、Claude一个位次去了起因是看到LMSYS的一个帖子(图2️⃣说他们推出了一个叫Code Arena新评测我一开始还没反应过来,Code Arena?什么东西?点进
不是,是我起猛了吗😧
智谱的GLM-4.6居然排名到编程世界第一去了???
和GPT、Claude一个位次去了
起因是看到LMSYS的一个帖子(图2️⃣
说他们推出了一个叫Code Arena新评测
我一开始还没反应过来,Code Arena?
什么东西?
点进去看了看才发现👀
以前我们看AI编程
都是看什么HumanEval
说白了就是给AI一道算法题
看它能不能解出来
这就像考试做题
高分不代表会工作
但这个Code Arena完全是另一个次元的玩法(图3️⃣
它不让你解题,它让你做项目!
评测员直接给个需求
比如“给我做一个带暗黑模式的Markdown编辑器”
然后AI就得像个真正的程序员一样
开始自己规划、创建文件、写HTML、写CSS、写JS
一步步把网站搭出来
整个过程还是实时直播的
你能眼睁睁看着它从一个空白页面建成一个能用的App
最后,真人评委上来投票
看的不是代码对不对
而是你做的这个网站好不好用、顺不顺手、甚至好不好看!
这难度
这真实度
直接拉满了啊!
然后最炸裂的就来了
在这么一个堪称“AI全栈工程师大赛”的榜单上
智谱的GLM-4.6
居然和Claude Opus、GPT-5(疑似)并列第一梯队
把Gemini 2.5 Pro都甩到后面去了!
这说明什么?
说明GLM-4.6的Agentic能力强得离谱
它不只是个会写代码的工具
而是真的有了项目规划和执行的能力👍
国产大模型卷到这个程度了吗?
印象里只是开源第一
没想到在真实评测里也能到第一梯队去了啊🤔
#ai[话题]# #人工智能[话题]# #大模型[话题]# #AI[话题]# #互联网[话题]# #机器学习[话题]# #计算机[话题]# #深度学习[话题]# #互联网大厂[话题]# #AI工具[话题]#
来源:Max For AI