摘要:DeepSeek R1与Manus已分别在推理模型及AI智能体领域掀起了一阵热潮。对竞争者而言,最稳妥的策略无疑是跟随。例如,百度发布了推理模型文心X1,而腾讯则推出了混元深度思考模型T1,以期迎头赶上。
在迎接后DeepSeek R1时代之际,如今的“六小虎”面临着交出一份完美答卷的巨大压力。
DeepSeek R1与Manus已分别在推理模型及AI智能体领域掀起了一阵热潮。对竞争者而言,最稳妥的策略无疑是跟随。例如,百度发布了推理模型文心X1,而腾讯则推出了混元深度思考模型T1,以期迎头赶上。
在3月31日的OpenDay上,智谱在国内资本市场取得丰厚回报之际,正式发布了其R1与Manus的“增强版”产品——具备深邃思考能力的Agent产品“AutoGLM 沉思”(以下简称为“沉思”),并已免费上线。
AutoGLM沉思。
智谱的初代AutoGLM曾在2024年11月创造了历史,发出了人类首个由AI发送的红包。如今,“沉思”在此基础上更具人性化,宛如一位人类实习生,能理解、分析并搜索开放的自然语言问题。
而从“联网搜索”向更广泛的领域迈进,“沉思”能够访问知网、小红书、公众号、京东、巨潮资讯等未对外开放API的信源,具备多模态理解能力,能够处理网页中的图文信息。
一个生动的例子由张鹏呈现:使用“沉思”来运营小红书账号,短短两周内便吸引了5000名新粉丝,并成功接到商业订单。
成功运营小红书的要素之一是高频更新,另一个则是吸引眼球的话题。只需输入想讨论的热门主题,比如“手冲咖啡全套设备种草攻略”,“沉思”便能从小红书、知乎等多个平台中,综合多个信源,自动完成总结。
智谱使用“沉思”运营的小红书。
随着DeepSeek App创造3000万日活跃用户的传奇,AI厂商对于产品形态的认知开始发生变化:应用的最终形态即为模型,所谓的应用,也逐渐演变为模型能力的展示舞台。
显而易见的是,“沉思”的交互界面设计较Manus更加注重模型的思维能力。
在思考的过程中,“沉思”更加注重“思考”的表现,从问题的理解与拆解出发,通过信息检索,再呈现出解决方案的结构。而相较于此,Manus则侧重于“行动”,其可视化面板更多地显示AI调用工具的过程。
“沉思”和Manus的界面对比。上为“沉思”,下为Manus。
“沉思”和Manus的界面对比。上为“沉思”,下为Manus。
虽然Manus雄心勃勃地追求成为全球首款通用智能体,但对于智谱而言,“沉思”的意义不仅在于可用性与商业化,更在于通过展示其思维链来彰显模型的实力。
智谱的AutoGLM项目负责人刘潇直言,虽然“沉思”可以处理简单任务如研究报告整理,但目前对公众提供的仅是预览版,功能上仍有许多不足之处。
例如,Manus能够调用Claude的计算机使用能力,在多个终端和应用间无缝操作,并可以直接生成PPT、网页等具体产物。
假设用户输入请求:“请制作一个jellycat主题的吃豆人网页游戏,素材颜色饱和度不要太高”,Manus便可以交付出一款相对完善的游戏网页,虽然执行时间较长,达到45分钟且存在一些小bug。
Manus交付的吃豆人网页游戏。
而当前的“沉思”预览版所能交付的,依旧是OpenAI推出的Deep Research类研究整理,无法实现开箱即用。
输入上述请求时,“沉思”只能输出实现游戏的代码,用户仍需手动复制并运行,对没有技术背景的用户这一过程显得并不友好。
“沉思”交付的是游戏代码。
一位智谱的员工向《智能涌现》透露,“沉思”仍然处于实验阶段,尚无法实现跨终端操作,若要达成这一目标,还需集成GLM-PC(智谱推出的电脑操作模型)等功能,类似于计算机使用能力的引入。
智谱在Agent领域的努力,究竟想展现怎样的技术实力?
在OpenDay上,张鹏详细解释了实现“沉思”所需的模型组合:基座模型GLM-4-Air-0414,推理模型GLM-Z1-Air,及沉思模型GLM-Z1——这三款新模型分别具备Agent在语言理解、问题分析和反思验证所需的能力。
“沉思”背后的新模型。
值得一提的是,智谱提出“沉思大模型”的概念,标志着其在R1下一阶段探索的方向。在张鹏看来,单纯依靠内部知识推理,会极大制约传统AI的发展。
“沉思”不仅仅超越了有限推理,它要求AI具备实时联网搜索、动态工具调用、深度分析及自我验证的能力,进而确保交付的成功率与实用性。
“价格屠夫”DeepSeek的无所畏惧,亦在迫使后来者要么选择开源,要么推出更高性价比的模型。
在智谱新发布的三款模型中,推理模型GLM-Z1-Air的推理速度相较于R1提升了8倍,而成本仅为1/30,且能够在消费级显卡上运行。同时,这三款新模型也将在4月14日全面开源。
然而,置身于后DeepSeek时代,思考是否坚持预训练、如何实现商业化,成为了六小虎必须面对的课题。
以下是智谱CEO张鹏在发布会上关于Agent、模型技术和商业化的一些见解,经过《智能涌现》的编辑整理:
预训练依然至关重要。尽管目前关注度有所降低,但强化学习等多种方法本质上仍依赖于预训练所奠定的基础模型。作为基座模型企业,维持预训练是我们义不容辞的责任。
未来的新应用形式,尤其是智能体的使用方式,将回归到模型本身。未来的众多应用将以模型为核心,外壳则是浅薄的产品化,应用性的外衣会渐渐演变为产品。模型能力一旦提升,产品功能便会随之增强,这正是应用模式的变革。
其中涉及的所有产品化及工程化方法,仅为权宜之计,折中式的解决方案。当我们打造出一个如人一样聪明的“脑子”时,工程难题将大幅减少,我们只需为其赋予“手”和“眼”,让其完成多样化的工作,这正是实现AGI的最终愿景。
不仅大模型的推理满足了Scaling Law,我们也发现Agent同样遵循类似的Scaling Law。通过扩展训练中推理计算的规模,我们观察到Agent展现了更强的性能。
对于企业或用户而言,无论是调用API还是购买模型,如何高效使用这些模型是大家所面临的首要问题。在这样的背景下,是否开源或免费已不再是关键,实际落地更需要双方的密切配合。
历史的经验已经表明,如MySQL和RedHat等开源并不意味着完全免费,这包括后期技术人员的投入与维护的成本,以及如何将DeepSeek本地化等。一切都需要专业团队的支持,因此,服务模式是开源的可持续商业路径。
通用智能体不能存在短板。为何AI的思考能力与表达能力超过人类,却仍未能媲美?因为其能力很不均衡。显而易见的短板使得应用成功率骤降。
现代的智能体为何常被第三方平台拦截?根本原因在于智能体的智慧不足。如果真正通过了图灵测试,那些封锁与干预的策略将难以施行。因此,规避这些拦截问题归根结底是技术工程难题。
我们在具身智能领域有相应的布局,但短期内可能尚需时日。
来源:兔兔科技