刚刚,智谱发布秒杀DeepSeekR1的“沉思”

B站影视 日本电影 2025-03-31 14:54 1

摘要:智谱在 2025 中关村论坛上发布最新 agent 产品:AutoGLM 沉思。作为首个集深度研究能力和操作能力于一体的 Agent,AutoGLM 沉思能一边进行复杂思考,一边执行操作。像人类一样打开并浏览网页,完成从数据检索、分析到生成报告。

3月31日上午消息,智谱在 2025 中关村论坛上发布最新 agent 产品:AutoGLM 沉思。作为首个集深度研究能力和操作能力于一体的 Agent,AutoGLM 沉思能一边进行复杂思考,一边执行操作。像人类一样打开并浏览网页,完成从数据检索、分析到生成报告。

智谱CEO张鹏在发布会上,公布了沉思智能体背后的两大核心能力:全栈自研模型GLM-Z1-Air和大模型智能体技术框架AuoGLM。

前者为“沉思”提供了强大推理能力的基座模型,而后者则是智谱一直积累打磨的智能体技术框架。

ps:AutoGLM沉思背后是智谱 GLM 全栈自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414(4月正式开源)。而自研智能体技术框架AutoGLM成为AutoGLM沉思的手脚。

先来看看智谱最强的推理基座模型GLM-Z1-Air。

智谱CEO张鹏表示,推理模型GLM-Z1-Air不仅性能比肩DeepSeek-R1,在速度提升最高8倍的同时价格仅需DeepSeek-R1的1/30;可以在消费级显卡上进行运行。性能和成本取到了良好的平衡。在AME等一系列基准测试的评估中,Z1-Air表现了强大的数理方面的推理能力,这位更多复杂任务的解决提供了坚实的基座模型的支持。推理速度方面,极速版的 GLM-Z1-Air最高的生成速度可以达到每秒200个 token。

一句话:这款模型只有32 B的参数量,能力却比肩更大参数量的国内外一流的主流的模型。

此外,智谱将更新上线 GLM4-FLASH,并推出了对应推理版本,完全免费。

智谱张鹏表示:大模型不止预训练和后训练、推理阶段存在 scaling law,“我们在研究当中发现 agent本身也存在的类似的 scaling law。”对于 agent通过扩展训练时的 inference compute,我们观察到 agent的性能出现了更强的提升。

这一agent scaling law背后是我们的自主在线课程强化学习算法框架。通过设计由易到难的任务序列,逐步引导模型从简单场景向复杂场景过渡。这种方法模拟模拟了人类学习的过程(由易到难),通过动态调整任务的难度,帮助模型积累基础能力之后再去挑战更高难度的任务,有效的避免了直接用复杂问题的数据进行训练时候的造成的训练不稳定的现象。

在 agent scaling law的基础之上,智谱还进一步发现了 agent存在的能力涌现。比如在训练过程当中,团队没有给到任何的样本或者数据教AutoGLM。

Auto GLM沉思版能够自己规划出一个路径去顺利地访问过巨潮资讯网这样的一个很特殊的网站,然而当发送指令帮用户收集昨天关于具身智能的相关研报。Auto GLM的动手能力:目前在行业内也是处于领先,包括浏览器的使用,手机和电脑在内的工具使用能力全面的处于领先地位。

在斯坦福大模型中心 AI指数2024当中智能体代表基准的 agent bench这样的一个评测集上,AutoGLM系列模型在多个环境上取得超过此前 sota表现的效果。

在 Phone use基准 Android lab和Android word上, Auto GLM phone任务的成功率方面,相对过往SOTA提升了超过20%。

在Web use的评测基准上, Auto GM web也全面超越了像GPT-4o和Claude3.5、 sonnet等。

在 GUI智能体方面, Co-Agent结合了视觉能力之后,在 GUI agent多个榜单上取得了 so的效果。

Co-Agent的模型参数仅仅只有9 B。但是它的性能超越了包括 claude computer use等一众更大规模同类的模型的性能。

一个好消息是,智谱将于4月14日开源推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,并于近期陆续上线bigmodel.cn。

智谱这两年除了研究新品,还在忙啥?张鹏在最后给我们解开了迷惑。

张鹏表示,2025年将会是 agent的应用的爆发的元年。智谱也将深度参与并且引领这一浪潮,为更多的应用合作伙伴提供基座模型的能力。我们在大力发展基座模型的同时,也会积极的帮助我们的生态合作伙伴更好的来使用 Agentic GLM的能力,包括:搭建标准化的 mass平台和智能体平台,打造基于行业、地域和场景的 agent应用。

在行业生态方面,智谱坚持和行业合作伙伴共创,用自己在大模型研发上的积累帮助行业伙伴来,合力做出成功的大模型应用。目前,智谱已经携手金融、教育、医疗、政务、企业服务等各个领域的合作伙伴,共同推进 Agentic LLM的应用落地。

另外,关注智谱的朋友都知道,智谱在G端方面发展非常成功,包括北京、杭州、上海、成都、珠海在内的地方政府均有合作及支持。比如智谱和珠海的龙头企业华发集团联手,联合搭建首个城市级的 GLM大模型空间,智谱+珠海华发空间将智谱一系列的语言多模态端测的模型部署到智能设备上。

张鹏解释道,在城市生态方面,自主、安全、低幻觉的 GLM大模型依然是城市在选择大模型的首选。智谱与当地的龙头企业合作,推动地方大模型应用生态的建设和落地。

作为一家朝向AGI的公司,除了以上这些生态方面的共建,智谱已经跟东欧十国和“一带一路”沿线国建立了前瞻的合作。会上,张鹏宣布了与这些国建建立主权AI自主大模型国际共建联盟,可以说智谱不仅技术底蕴十足,就连生态的肌肉也十分强悍。

来源:51CTO

相关推荐