摘要:人工智能(AI)正逐渐渗透到我们生活的方方面面,改变着人类与机器的互动方式。曾经,Chatbot作为人机交互的代表,仅具备基础的对话功能。然而,时至今日,这些Chatbot正逐步进化为具备“手、脑、眼”全面能力的自主Agent,为人类带来前所未有的智能体验。
人工智能(AI)正逐渐渗透到我们生活的方方面面,改变着人类与机器的互动方式。曾经,Chatbot作为人机交互的代表,仅具备基础的对话功能。然而,时至今日,这些Chatbot正逐步进化为具备“手、脑、眼”全面能力的自主Agent,为人类带来前所未有的智能体验。
大模型之家讯 11月29日,智谱Agent OpenDay上,CEO张鹏带来了在Agent技术领域取得重大进展。其AutoGLM已能自主执行超长任务、跨App操作,并开启「全自动」上网新体验。同时,基于视觉多模态模型的GLM-PC也启动内测,实现如人般的电脑操作。此外,智谱还展望了Agent技术在智能设备中的应用,手机+AI将变智能助理,PC+AI成生产力工具,汽车+AI变成第三生活空间。
智谱的最新产品AutoGLM,不仅能够理解并执行超长指令,自主完成多达50步甚至更多的操作,而且在多步、循环任务中的速度表现甚至超越了人类手动操作。这一突破性的成就,得益于智谱在大语言模型、多模态模型、逻辑推理和工具使用等方面的深厚技术积累。
AutoGLM的另一大亮点是其跨App执行任务的能力。在过去,用户往往需要在多个应用间来回切换,才能完成一系列复杂的任务。然而,AutoGLM的出现彻底改变了这一现状。它支持跨App执行任务,用户只需给出简单的指令,即可享受AI带来的便捷。无论是搜索信息、购物消费,还是处理文档、管理日程,AutoGLM都能轻松应对,让用户从繁琐的操作中解放出来。
新升级的 AutoGLM 可以挑战完成复杂任务:
·超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。
·跨 app :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。
·短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。
·随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?
在Agent OpenDay现场,AutoGLM不仅成功给每一位嘉宾发送了来自AI的微信红包,还通过手机远程指挥电脑自动发送文件。这些原本需要人类复杂操作的任务,如今完全由智谱产品化的Agent自主完成。
即日起智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的无人驾驶。在现场demo里,智谱清言插件自动完成了“搜索芒果tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。
除了AutoGLM之外,智谱还带来了另一款令人瞩目的产品——GLM-PC。这是GLM团队面向“无人驾驶”PC的一次技术探索,基于智谱的多模态模型CogAgent。GLM-PC的出现,不仅标志着智谱在Agent技术领域的又一次突破,也为人机交互方式的变革提供了新的可能。
GLM-PC能够完成一系列复杂任务,包括会议预定、参与、总结,文档处理,网页搜索与总结等。它甚至可以在远程和定时操作下,自主完成电脑操作,实现真正的“无人驾驶”。这一功能的实现,得益于GLM-PC对人类使用电脑方式的深入模拟和学习。它像人一样用眼观察图形和文字,用脑规划操作步骤,再用手(即鼠标和键盘)执行单击、双击、输入等操作。这种系统级、跨平台的能力,使得GLM-PC能够适应各种复杂的应用场景,为用户带来前所未有的智能体验。
值得一提的是,GLM-PC的隐形屏幕功能。在用户工作时,GLM-PC可以在隐形屏幕上自主完成工作,解放屏幕使用权。这意味着用户可以在不影响自己工作的前提下,让GLM-PC在后台自主完成任务。这种设计不仅提高了工作效率,还保护了用户的隐私和安全。
然而,由于PC的复杂程度以及用户在PC上完成的几乎都是复杂任务,GLM-PC在当前版本下仍需要用户输入非常精准的指令。但智谱团队表示,他们将继续努力完善产品,提升GLM-PC的智能水平和用户体验。相信在不久的将来,GLM-PC将成为用户工作中不可或缺的智能助手。
从23年4月的AgentBench开始,到8月的CogAgent模型,智谱针对AutoGLM和GLM-PC的研发工作已经持续了一年半的时间。与OpenAI等其他企业不同,智谱定义了大模型发展的五个阶段:L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、L4自我学习能力、L5探究科学规律。
智谱认为,大模型已经初步具备了人类与现实物理世界互动的部分能力,而Agent将极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。CEO张鹏表示,未来 GLM 团队将继续加速 agent 模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。
随着大模型技术的不断进化,Agent作为目标驱动型的智能助手,正在逐渐改变人机交互的方式。与传统的GenAI不同,Agent能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端地完成任务。这种新型的人机交互方式,不仅提高了工作效率,还使得机器更加贴近人类的需求和习惯。
业内普遍认为,2025年将是Agent爆发之年。Gartner近期将agentic AI列为2025年十大技术趋势之一,并预测2028年至少有15%的日常工作决策将由agentic AI自主完成。这一预测不仅反映了行业对Agent技术的认可和期待,也预示着人机交互新时代的到来。
张鹏指出:“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”
在这个新阶段里,智谱 COO 张帆表示,智能设备在大模型的加持下,将会焕发出新的机会。手机+AI 会变成随身个人智能助理,PC+AI 将会成为全新生产力工具,汽车+AI 将会让车成为人们的智能第三生活空间。当然,大模型不仅仅会为手机、PC 和汽车带来机会,而是会惠及各种各样的智能设备。大模型的不断进化已经为 Agent 变革人车交互体验奠定了强大的基础。
随着端侧性能及算力持续提升、为AI原生设备适配的模型和端云同源的协同架构出现,Agent 不仅在操作系统 OS 和应用上实现用户体验变革,还能将其推广到各类智能设备上,从手机到电脑,再到汽车、眼镜、家居和各种 edge side 设备,各种 AI 原生设备正在争相涌现。
荣耀 AI 技术总监王作建、华硕 AIPC 智能生态负责人钟怀圣、小鹏汽车座舱智能语音/智能化业务负责人廉磊、高通 AI 产品技术中国区负责人万卫星、英特尔中国区技术部总经理高宇,作为智谱的客户及合作伙伴,分别从不同的场景出发,分享了他们对智能终端的实践及展望。
AutoGLM和GLM-PC作为智谱的代表作,不仅展现了AI技术的无限潜力,也预示着人机交互新时代的到来。从智能设备走向智能网络,在不久的将来,我们将看到AI原生设备的互联互通和无限可能。在这个过程中,智谱也将提供一系列的产品和能力,帮助智能设备们拥抱大模型,加速迈向 AI 原生设备新时代。
来源:夸夸汽车分享