智谱「贾维斯」来了,一句话实现跨app、跨设备全自动无人操作

B站影视 2024-11-29 20:38 3

摘要:全球科技公司也不约而同地选择了 AI Agent 赛道,包括苹果的 Apple Intelligence、Anthropic 的 Computer Use、谷歌的 Jarvis,还有 OpenAI 即将发布的 Operator。

智谱让大模型从“Chat”走向“Act”,实现从手机到PC的无缝协作。

作者丨刘洁

编辑丨张进

今年 7 月,Lilian Weng 一篇长文让 AI Agent 在国内再度火爆。

尽管大模型在过去几年间备受关注,但一直缺乏明确的落地方向,AI Agent 的概念则为业界指明了一条新的道路。

全球科技公司也不约而同地选择了 AI Agent 赛道,包括苹果的 Apple Intelligence、Anthropic 的 Computer Use、谷歌的 Jarvis,还有 OpenAI 即将发布的 Operator。

智谱 AI CEO 张鹏曾说:“智谱AI 的特色在于对标 OpenAI 的全线产品,不是说人家做什么,我们就做什么,而是因为我们追求 AGI 的目标是一致的。”

而这从来都不是说大话。

业界大牛还在为 Scaling Law 是否撞墙争论不休,智谱已经在 AI Agent 上迈出了新的一步——让大模型从 Chat 走向 Act,带来全新的人机交互新体验。

今年 10 月,智谱率先开放了 Agent 应用 AutoGLM 的内测,受到业内广泛关注。

2023 年年初,奇绩创坛创始人陆奇预言,大模型会在手机上运行,今年各大 AI app 的陆续推出也证实了这一趋势。

今天,智谱在 Agent Open Day 上,正式推出 AutoGLM,在这一预言的基础上更进一步,不仅让 AutoGLM 在手机端实现全自动任务执行,还让这一技术跨越了更高的应用场景——手机与PC端的无人操作。

在现场演示时,智谱 CEO 张鹏只用一句简单的语音指令,就让 AutoGLM 自动创建了一个名为“智谱开放日”的面对面群聊,给在场嘉宾发了两万的红包。这也是人类史上第一个由 AI 发出的红包。

本次的 Agent Open Day 亮点当然不止发红包,还包括:

AutoGLM 自主执行 50 步以上的长步骤操作,还可以跨 app 执行任务

web 端上线 AutoGLM 插件,支持数十个网站的无人操作,实现“全自动”上网新体验

AutoGLM PC 端开放体验,电脑也能无人操作

同时,智谱宣布启动大规模内测,并将快速推向 C 端用户,提供“10 亿级 APP 免费 Auto 升级”计划,邀约各大 App 合作伙伴共同探索 AI Agent 应用的潜力。

同时,支持核心场景和核心应用的 AutoGLM 标品 API,也会在两周内上线到智谱 maas 开放平台(bigmodel.cn)试用。

1 让生活不再“无聊”和“重复”

过去的人机交互都是人类去迁就机器,人类需要花费大量时间学习机器操作,比如如何使用键盘鼠标、不同操作系统里如何调用不同应用。

但大道至简,其实技术发展到最后,呈现给使用者的都是傻瓜式操作。

就像智谱列出来的人工智能的五个层次,我们正处于 L3 阶段,大模型已经初步具备了人类与现实物理世界互动的部分能力。

相应的,大模型也在改变人机交互方式,通过学习人类的行为习惯,模拟人的思维方式,让机器去适应人。

Agent 的发展也将进一步推动我们探索 L4 阶段,迎来一句话操作手机和电脑的全新时代。

上一版 AutoGLM 在 AndroidLab 的评测基准中的表现,已经超过了 GPT-4o 和 Claude-3.5-Sonnet。

这次全新升级后,AutoGLM 能更好地应对多步骤复杂任务,尤其是那些不断循环的无聊任务。

无论是生活还是工作, AutoGLM 都在努力让人类从烦人的重复事件中解脱出来。

想喝咖啡,一道指令让 AutoGLM 帮你下单,更能记忆口味和常点店铺,一句“点咖啡”全搞定。还有“盲盒”模式,AutoGLM 自由决策,解放选择恐惧症。

为了进一步优化用户体验,AutoGLM 在用户和众多应用间添加了一个 app 执行的调度层,这样一来 AutoGLM 就可以跨 app 操作,不需要用户手动切换 app。

像大促时各平台的商品比价,或者是根据小红书攻略在大众点评上订一家约会餐厅,再顺便打个车,都可以全程交给 AutoGLM 进行全自动化处理。

除了手机端,web 端的智谱清言也上线了 AutoGLM 插件,支持搜索、微博、知乎、Github 等数十个网站的无人操作。

智谱也模仿人使用电脑的方式,在 PC 端做了无人操作尝试,目前已经开放了 GLM- PC 的第一阶段内测。

工作太忙,不管是文档处理、会议替身、资料检索总结,还是远程和定时操作,这些重复又无聊的工作都能交给 AutoGLM,它能在多步操作过程中记住复杂指令以及之前的选择,极大地提升操作效率,节省时间。

2 大模型从 Chat 走向 Act

从 2023 年的 AgentBench 开始,经历了长达一年半的研发,智谱交出了自己满意的 Agent 应用。

在这期间,智谱有两个重要发现。

第一个发现是,Agent 本质上也遵循着大模型的 Scaling Law。

第二个发现是,Agent 也有 Emergent Ability(涌现能力)。即使之前 AutoGLM 从未在小程序里测试过,也能够完美完成小程序下单任务。

基于这些发现,智谱训练出了 Agent 模型,CogAgent,并在此基础上研发了 AotuGLM 和 GLM-PC。

CogAgent 模拟的是人类的“感知、认知、运动”闭环。

首先,用外部感知模仿人类的眼睛,获取通用像素级信息,再模拟真人的思考过程,以语言作为推理的决策和媒介,最后执行决策,模仿人的操作方式来操作工具。

CogAgent 学习人类操作的过程也分为三个阶段:

L1:被动模仿,观察人类是如何使用计算机的;

L2:交互学习,在人类的指导下学着使用计算机;

L3:主动探索,自主探索计算环境,学会自我提升。

智谱还将高分辨率图像输入 GLM-4V-PLUS 预训练模型,让 CogAgent 能够更好地理解文本和 UI 界面元素,拥有更强的 GUI 视觉感知能力。

通过高分辨率图像输入和语言-视觉联合训练,CogAgent已更新至2.0版本,能够处理更复杂的逻辑推理。

CogAgent 2.0 以模仿点击、滚动、键盘操作等人类操作行为,叠加界面问答和语言生成 LLM 原生行为的方式,同步完成决策执行,赋予 AutoGLM 跨 app、跨平台、跨系统的泛化能力,最终构建一个互通的世界。

张鹏表示,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。

Gartner 已将代理式 AI 列为 2025 年十大技术趋势之一,预计到 2028 年,至少 15% 的日常工作决策将由AI Agent自主完成。随着技术的成熟,AI Agent 将逐步改变人机交互的方式,极大提升工作和生活的效率。

智谱正在引领这一变革,从“Chat”到“Act”,让 AI Agent 成为未来人机交互的核心驱动力,助力个人和企业实现全新的智能化体验。

3 群访环节

提问:今年上半年整个大模型行业都在寻找超级应用,而下半年,智谱推出了 AutoGLM 这个智能体,同时整个行业都在探索底层的生态布局。请鹏总谈一下转变的原因是大家的战略诉求点发生了哪些变化?在整个生态底层,我们创业公司和大厂之间的差异性在哪里?

张鹏:年初我们在1月份发布会上说过这个事情,大家有点期待过高,太急了。这个可以理解,毕竟这是一个高投入的事情,大家都期待更快地产生生产力。

我们布局的这些事情能让大家眼前一亮,是因为我们关注的一直是底层技术。大模型的落地应用不仅仅是单项技术的提升,而是技术的全面积累。

只有当各项能力达到一定水平,才能真正产生价值。比如ChatGPT虽然强大,但如果仅依赖单一技术,处理复杂任务时仍有局限。我们的技术布局是全方位的,注重多模态、复杂交互能力的提升,正是这种全面的技术积累,才让我们有了今天的成果。

与一些大厂的做法不同,我们更多关注的是技术导向和最终目标,而非单纯的快速变现。我们希望通过技术真正解决生产力问题,而不是追求短期盈利。所以,我们的战略眼光也会更长远一些。

在生态方面,我们的技术体系更开放,鼓励合作伙伴和客户基于我们的平台去构建自己的应用和商业价值。这种开放的生态,和一些大厂的封闭做法有所不同,正是我们的一个重要差异。

提问:刚才张帆总说我们端侧的模型和云侧的模型以后要统一,但 7B 和 1.3B 并不是一个体系的模型。接下来端侧模型的训练会如何进行?云端模型是否不再训练,还是会每两年更新一次?另外,端侧模型是否会开源?有人认为开源会变得落后,你怎么看?

张鹏:他说的统一和你的理解有点偏差,我们指的是架构体系统一,不代表合在一个模型。

云端的大模型和端侧模型受物理限制无法合并,我们有小型模型运行在端侧,边缘和云端也有所不同。

统一指的是架构相似,能力趋同,应用一致,便于形成云边端协同的技术体系。整合来自不同供应商的模型,适应不同架构和特点的成本较高,所以“统一”指的是架构层面的统一。

提问:从去年开始,虽然大家讨论AIPC和AI手机,但当时很少将Agent概念与端侧和边侧结合。您觉得从端侧来讲,这种AI的应用从今年到去年,大家有什么样的进化?我们看到硬件也是在进化的,去年硬件的准备也不是很好。今年,硬件如骁龙8至尊版有了更好的支持,模型产品也在不断推出,您的观测是什么?

张鹏:去年我们很少提到Agent,因为Agent这一能力是随着模型能力逐步增长而出现的产物。当时,模型的智能水平尚未达到足够的程度,导致Agent的效果并不显著,因此提及Agent可能为时过早,且效果较为有限。

端侧之所以成为焦点,主要是因为端侧的应用效果更加直观。大模型带来的第一个显著提升便是在人机交互方面,而这一点在端侧表现尤为明显。例如,Agent能够调取API等功能,虽然这也是Agent能力的一部分,但更多地面向的是开发者、系统级和企业层面的应用,因此普通用户的感知较为薄弱。

此外,技术的不断进步和关注度的提升也推动了端侧硬件厂商在这一领域的适配与发展。随着硬件支持的增强,端侧的Agent应用逐渐展现出更加显著的效果。综合技术进步与硬件适配的双重因素,当前Agent能力在端侧的应用效果愈加显著。

提问:Agent演示了很多应用,但可能会离真正的生产力的大部分场景有点差距。如果想要以后用Agent覆盖更多的50%、80%的设备使用场景,让它做更多预训练之外的事情,我们接下来需要做哪些事情?在模型上还是数据上做优化呢?方向在哪里?怎样可以让它成为一个生产力的工具?

张鹏:这个问题本质是技术驱动问题,刘潇帮忙回答。

刘潇:谢谢这个问题,就像今天我们所介绍的那样,现在预训练的Scaling确实在业界现阶段由于数据问题遇到了一定瓶颈。但是o1代表的Agent Scaling打破了技术突破的概念,我们通过后训练的Scaling,几乎找到了在我们AutoGLM Scaling上一样的效果。

接下来是我们怎么更好的在这样一个模型基础上,预训练还是要继续,还是有空间,只不过需要新算法的范式转变。但是后训练这件事情上,依然有很长的Scaling的路要跑,但是意味着和以前的Scaling有一定区别,你需要面向后训练的特点改进你的Scaling的框架、算法、数据,这都意味着一套新的逻辑。

张鹏:我稍微补充一下,刘潇讲的Scaling单一看语言模型的训练,确实因为数据的原因和训练规模原因,确实不像我们之前预测的一样,还是指数级的往上涨。

但是看更宽的范围,你把这些统一起来看这些事情,Scaling还在起作用。只是说它换了一种方式体现这种事情,我们一直说Scaling是现象总结,但是现象本质是什么?我们更重要的要看本质,现象总有终结的时候,本质是我们做这件事情的初衷。

我们团队比较乐观,觉得有大把的空间和机会使用Scaling突破技术上的鸿沟。

提问:今天您提到正在从生成式AI、AgentAI进化,转变过程中软件生态链或者开发者的生态发生什么变化?希望结合惠普等等合作伙伴的落地情况分享一下。

张鹏:我觉得生成式AI和智能体这个事情,本质上也还是一样,它的范式没有变化。

因为它还是用生成方式做任务的规划、理解规划、执行等等一系列的过程。只不过我们把这部分的能力增强到一定程度之后,它能够和外部产生连接。

这是Agent在生成式AI上加的一部分,它有和外部连接的能力。所以,我还是看本质的问题,差别没有那么大。

问题的第二部分是这件事情对于开发者或者工程的要求是什么?

其实肯定会有一些要求。对开发者来说肯定没有什么特别明显的差异,只不过是你的工具变强了,现在写代码原来是逐行的写,现在可以拆解各类文件,按步骤生成你的框架、里面的代码等等,一次性可以帮助你做更多复杂的事情。

从开发角度来讲工具变强了,没有太大变化。但是对于整个这件事情的逻辑上来讲,比如说复杂系统的开发,企业内部应用落地这种技术,是有一些变化的。

如果你需要让Agent调用这些东西,我们今天展示的是在客户端,人看懂的东西它可以看懂。但是研发、开发这一段人看得懂的开发文档,它能不能看懂?这是新的问题。

你内部的数字资产,已有的这些服务能不能让Agent可以很好的调用和执行,那些东西并不是主要面向人的。

这个也对企业带来新的要求,你对内部的数字资产怎么进一步做整理、规划,怎么做适合新时代下开发范式的调整,这可能也是一个新课题。

提问:想继续您刚才的关于Scaling的问题追一个问题,最近美国那边一直有争论,Scaling有没有放缓大模型,开发有没有撞墙这个事情。

您也简单的叙述了您的态度和基本观点,我们想关注的一点是怎么让Scaling继续?

张鹏:我们今天展现很多这样的路径,比如说语言可能碰到人类极限的天花板,能不能突破需要更好、更多的数据,更大规模的去做。剩下的在多模态、今天我们展现的Agent能力上,都是可以去尝试Scaling的点。

多模态这个事情,Scaling这个事情不是我们说的。有很多文献和论文证明,视觉这一块仍然还秉持着Scaling路线效果,包括在Agent上面论文也论述了这个特点,也仍然可以Scaling,当然还有更多的点去找。

所以,反复的强调我们聊的是AGI,这个内涵非常丰富,不只是一个语言模型。这里面不只是简单的模型参数量,训练方法和推理量都是Scaling的方法。

所以,Scaling是一个我们看到的现象,现象的本质是什么?我们一直在找这个本质。

提问:可解释性?

张鹏:不是,我目前比较赞同的事情是计算量,你有多少计算量你的智能就有多少,这个是现在看起来是比较贴近真相的解释,但是也不保证它一定对。

因为,现在还在不断的探索,不断的更新每个人的认知。不管是强化学习的方法还是Agent上扩散模型的方法去解决多模态的这些问题,其实都是在增加计算量。预训练量更多,后训练也通过增加计算量有更好的效果。

刘潇介绍的计算量的上升,其实也是Scaling的效果,只不过并非是简单粗暴地通过数据量和参数量的增加来实现的有效性。

提问:之前提到2B是四条路线,2C提了很多,生产力应用等等很多方向。我们是怎么找到我们生态位的?为什么放弃GLMS这样的做法?

张鹏:我认为不是放弃,不同阶段做不同探索,过程当中大家都是不断的尝试和试错。

GLMS这件事情是最原初的对于Agent的尝试,只不过今天的AutoGLM是GLM底下非常具像的能力,这个能力产生的效果是可以Scaling的,可以更大的,具像化的产生这件事情,并不代表我们之前的智能体就怎么样。

今天是操作手机和电脑,明天就可能操作你的数据库和企业内部的数据,帮助你生成复杂报告的逻辑,本质上是一样的。

因为大家每天用电脑和手机,每个人对这件事情的接受程度和理解更容易,比如说2B和企业内部应用不存在这样的场景吗?也存在,只不过大家体感上有先有后,其实2B还行。

提问:我们发布了AutoGLM怎么考虑生态位的问题?软件中间的应用墙也是很厚的。

张鹏:我觉得一半是商业问题,一半是技术侧问题,刘潇先说一下技术上的事情。

刘潇:我们这次发布会体现出来了AutoGLM希望成为帮助大家更好的连接,不论是连接硬件还是连接各种应用服务的中枢,或者说应该是一种工具,它能够更好的通过自然语言方式让用户更加容易的组装这种服务,更有意愿做这件事情。

从技术背后看挺困难。原本你在自己的应用生态里面拿到底层的很多东西,包括有完整设计的图纸去做这件事情,这是一方面。但是这种注定了一在一个封闭的生态里面做开发,没有办法和其他人很好的合作,并且你的模型不够聪明,不能够那么好的连接。

从技术角度来讲,让模型更好的连接这个事情,包括这次提到的重点,可能是我们认为可以帮助到大家,大家在商业形态的技术上得到一些启发。

最后,模型做到这种水平的智能体能力,并不是想象中那么简单的事情,这是我们智谱最有自信的地方,比如说OpenAI出来了很久,但是真正的满血版没有放出来,是我们很难想象的一个水平的东西。

从原始创新、算法和模型能力上做持续迭代,这件事情从我的视角看是最重要的,最需要为大家提供的事情。

张鹏:我们还是技术驱动型公司,技术路线驱动了我们很多路径。

像刘潇讲的一样,对我们自己的定位,我们更多的是探索新的可能性,新的范式,然后把我们自己变成这个生态和范式里面的赋能方。我们希望大家通过这种赋能的方式,解决一些原来比较条块化或者垂直化行业划分之后形成的壁垒,去解决这样的一些问题,帮助大家打开一些新窗户。

从商业化角度来说,做这件事情,我们是一个赋能方。包括现场也看到很多合作方在参与和合作这个事情,大家是互利的态度和方式,我们有这样一种新的生态,给大家提供新的技术和平台,这些原有的厂商和新厂商也好,都会在这个平台上做,大家各取所需。

原有大厂商自己的生态中做的技术体系以及等等的生态也好,可以和我们其他的生态链接,这是一种新的链接方式,新的可以找到更多接入的方式,不需要自己进一步去和各种各样的伙伴或者是一些生态里面其他位置上的厂商去聊这件事情,自然而然会变成一种繁荣的生态。

提问:以前我们用清言、清影是主动输入的过程,现在在终端上可以调用各种APP,这个过程中是否涉及用户的个人信息或者隐私之类的合规保护问题?

张鹏:我简单的回答一下,技术上的事情让刘潇回答。

这个肯定会涉及到这一方面,也是因为这个我们做的相对比较谨慎。发红包这件事情也是今天让大家试一下,通常情况下不会做这件事情,我们是主动的。

确实会涉及到用户隐私和安全方面的东西。我们在考虑怎么样用更安全的方法解决这些问题,我相信把问题摆在桌面上大家正面对待,总有办法解决。

刚才会间我们和刘潇聊的时候,也在聊未来我们会有一整套云边端一致性的统一框架,这套框架解决一部分数据的隐私、保护和安全的问题,在本地解决掉。有一部分不涉及敏感信息的复杂任务靠云端解决。

从技术的演进上来讲,我们先创造一种可能性,这种可能性带来的问题我们逐渐的解决,技术上的细节由刘潇补充。

刘潇:这是一个非常关键的问题,AutoGLM目前还是处在内测的状态,更多是向大家去展示大模型接下来的方向是什么,以及它未来可能有什么样的能力,目前并不是一个正式的产品或者这样的内容。

但是大家可以看到,国外的OpenAI和谷歌,也是通过读取用户电脑屏幕,包括在你的电脑上做一系列的操作完成这些事情。OpenAI在1月份的消息是上浏览器的操作智能体,谷歌也有消息报道出来。

目前,基础还处在一个发展的初期,确实是时候可以拿出来和大家一起讨论,和各种合作方一起沟通。

一方面能力上还有很大的提高空间,但是另外一方面尽早的把这些问题建立起来,大家一起把这些问题构建好,在国际竞争当中是未来的必然趋势,我们提前做好准备,这个事情是我们认为在技术上比较重要的一个点。

提问:去年的时候,行业内大家都聊到Agent,但是一直很难落地的原因是它的成功率太低了,执行任务的时候。

我们智谱的Agent执行任务中的成功率可以达到多少?在提高成功率的过程中,我们依赖于哪些问题的解决?

张鹏:首先,这项技术本身仍处于非常新的阶段。

尽管它能够展示许多炫酷的应用案例,但也有用户反映其体验不尽如人意,尤其是在理解中文网站或环境方面存在一定困难。

然而,我认为这更多是时间问题。以ChatGPT为例,刚推出时,大家也曾调侃它存在诸多问题,但仅仅经过四个月,技术能力便有了显著提升,随后出现的一系列新模型也证明了这一点。

对于我们的技术团队来说,我们也难以预见到它的增长曲线会如此陡峭。

例如,我在PPT中介绍的能力涌现特性,过去我们投入了大量精力准备数据并通过强化学习进行训练,但成效并不明显。

然而,当某个临界点的积累达成后,我们发现技术能力发生了跃变,开始遵循Scaling规律,找到了突破点,并进一步推动其扩展。

这是一个非常重要的观察。我认为,我们无需过多等待,预计明年,Agent技术将达到普通用户可以接受的成熟水平,而到2025年底实现这一目标,并非不可想象。

至于成功率,它因任务的不同而有所差异。

例如,一个月前,如果让我完成一个50多步的任务,我是做不到的,而今天展示的采购流程已经可以顺利完成。一个月前,5到10步的任务成功率很高,达到80%至90%,但更复杂的跨应用任务则几乎无法完成。

总的来说,随着技术的发展,成功率的提升速度非常快,尤其是在不同难度任务之间,表现的差异在迅速缩小。

提问:无论是PMF还是模型能力的增长速度,大家对大模型有很多像前几年的质疑,我们作为从业者,智谱或者是大模型,未来遇到的难点是什么?

刘潇:我从技术上来说,确实Scaling是一个非常有效的东西。但是各位媒体朋友们刚才也说了,既然大家已经意识到Scaling这件事情重要,你就不要随便放弃它。

当你认为在某个问题上Scaling做不通的时候,不是Scaling本身的问题,是你把问题和路想窄了,Scaling的对象和Scaling的方式,包括怎么真正从算法上原始的创新和改进这些事情,这些点是最关键的。

还是那句话,人们总是高估技术的短期影响,而低估技术的长期影响。短期内看它没有起来就特别着急,但是转头稍微等几个月,你会发现事情上和你想象的本质上会有很大的差别。

所以从技术的角度来讲,我们想做好的事情是继续用好Scaling,并且去信仰Scaling这样的东西,灵活的应用它,实事求是的去应用这种规律,找到真正适合的场景和用新的算法实现它。

而且,对这件事情我还是挺有信心的,我了解到同行们对这件事情挺有信心,当然如果很暴力的去训练的话,确实觉得没有什么前途。

提问:AutoGLM的技术会开源吗?未来落地形态是APP还是更底层一点赋能给手机厂商或者汽车厂商这样的2B的形式?

张鹏:四个字:皆有可能。

刘潇:这一块我们做了很多开源工作,评测用的安卓LAB环境等等都是开源的。

提问:现在一个智能体要完成一个复杂的工作流可能要调动很多的数据应用程序,但是现在很多网站和APP都有自己的API,现在API不太统一,不够标准化。

导致智能体没有足够的接口可以用,限制智能体的发展。所以,咱们智谱的智能体也会面对这样的情况吗?会怎么处理?智谱想打造贾维斯吗?

刘潇:首先我们强调了AutoGLM和CogAgent,本质上叫用户图形化交互界面的操控Agent,它和之前基于API调用的Agent有本质的差别。它实际上是模拟人类完成一系列的操作,并非是用传统机械的方式去调用。从这件事情的角度上来讲,使得它能够去在没有特定API的情况下,依然为用户完成一些用户要求的任务。

这个场景为什么有效呢?从技术角度来讲确实要统一API,对厂商和平台或者某个应用自己做的话成本非常高。而且这些应用本身自己也在不停的演化,这个API昨天搭好了,过一周上了新版本,需求马上就失效了,这个事情是非常普遍的。

用户图形化交互界面的这样一种大模型智能体完成这件事情就规避了这个问题,因为界面人类依然可以理解,用户能用的就不是那种很变态的设计,我觉得它依然处于适用的状态,这也是非常好的借助了大模型泛化性和通用的事情,像人类一样去,理解这个世界。这件事情是我们能够真正实现通用和人的助理的通用,这是以前用纯API的策略是做不到的。

提问:智谱这次更新是强调任务规划和动作执行方面的升级,明年是Agent大规模落地的时间点。

我们最近看到很多友商发布的产品更多集中在低代码工具和自然语言这一块,这两种是同样的吗?还是大厂和创业之间的路径差异?

张鹏:大家站的视角和看待问题的视角不一样。前面我也说过这个问题,我们看待这个事情,是最终的目标是什么,我们到底做什么事情,反向看我们应该做哪些事情,哪些事情可以商业化,商业化这件事情重要,但不是我们的唯一目标。

这个技术从商业化的角度来看,肯定有一些问题需要我们去解决,成功率、价值、安全、隐私等等都要解决,解决了这些事情才能把它真正变成钱,但是并不代表这个技术不好,大家很兴奋是因为这个技术真的觉得好,既然有这个技术为什么不让大家往这个方向走呢?需要有这样的一个思路。

所以说不要受困于固有的逻辑和思维定势看待全新的东西,这是大模型这一次给我个人的教训,很多东西不要把太短期的目标放的太高。

当然,过程当中我们会沿途下站做很多商业化落地的事情,作为企业这也是很重要的使命,要做的一些事情,我们希望在这两件事情上把它平衡好。

提问:我看到AI Agent可能是抢占用户入口,未来有大模型新的形态。

这会不会对传统厂商构成威胁?您怎么看待和传统厂商的竞争关系?未来我们会往操作系统方面发力吗?

张鹏:在现在这个阶段并不构成所谓的威胁或者这样的说法,我们揭示了希望通过这个技术让大家更简单更有效,永远是站在用户端。

任何一种商业逻辑最终是为用户创造用户价值,这个是最根本的。这件事情用户用手投票有用,最后的结果是什么大家也不知道,可以再看一看。

我们希望用这样的技术帮助大家改进这件事情,而且我们现在做到的事情并不是很深入的进入到这些APP和应用里面。

原来APP是什么形态继续改进,并不受影响,我们帮助大家多了一条路而已,努力的找增量,这是我一直和大家讲的问题。

其实这个世界、宇宙非常大,我们没有必要把自己圈在一个圈子里或者一个天花板下面往内卷,我们应该找新的空间和新的可能性,这是我们一贯的态度,我们无意去争抢,我们是找新的方式,让用户得到最真实的价值,让他们自己去投票。

我们不纯粹的像传统的操作系统做这件事情,我们和现有的操作系统厂商合作,尝试把我们AI能力赋能进去,进行原生的大模型新一代的操作,我们已经在做这些预言或者研究的工作。

提问:我们很多案例对于普通大众来讲,刷小红书、出行攻略、对比一些票、对比餐厅,对他们来讲是比较休闲、摸鱼的事情,这个AutoGLM实际带给他们的是什么?或者下一步对于C端,我们认为对用户需求探索的方式是什么?还是说我们做的新的产品,主要的用户场景还是在工作场景上?

刘潇:我觉得首先第一个肯定是有一个过程,我们首先展示出了它可以做到这件事情,ChatGPT大家开始当称对话工具来使用,也没有想用它写代码。

但是技术未来可以做的事情,解决的问题,本质上表明的点人和设备交互完成的事情,理论上都是在将来可以完成的。

包括这次我们发布的新内容,对我个人来说特别实用的食材采购,我周末在家做饭,我突然想吃麻婆豆腐,我要买菜,我们这一代人不太可能去菜市场。

我查它的食材的时候,需要20多个,我得去美团或者淘宝超市一个一个的去加,理论上也许你有时间做这件事情,但是从心理上不愿意做这件事情,因为这件事情会让你的心情变的不太好。

我觉得像这样一个功能,这个也是我们实际在用户调研中发现的,家庭采购需要的话,真的可以根据一键采购清单,根据我的要求等等,可能对价格并没有那么敏感,或者加完之后我再去调整,很多时候是这样的逻辑。

包括快应用也是源于我们团队一位同学生活中的体验,周末的时候不知道去哪里玩,一般是刷小红书看去哪里订餐厅?

涉及到很多APP之间来回看,我在那里做也可以,但是实际上周末很懒的去这样做,包括小红书有一个点是没有办法复制帖子里的内容,特别是名字比较奇怪的店,一个字一个字的跳动着去做。

很多时候因为人类的懒惰才有了科技,人的天性是追求放松,如果有更简单的方法让他无需消耗能量达成这个目标,人一定会慢慢收敛到这个目标的。

提问:最近AI搜索比较火,我们怎么看待AI搜索?智能体的未来和AI搜索做怎样的结合?

张鹏:我可以补充一下。你刚才说有一些批用户确实刷小红书购物,在APP上逛商店是享受,我们不反对。

但是不只是只能做这个事情,我们中间有一张片子展示出了在办公中同样可以起到作用,可以让AI助手编写材料的时候帮助你收集、总结材料,你拿结果用就可以,工作效果提升了。

刘潇刚才讲的是先展示技术的本质的可能性,对我来说工作最有价值的部分,避免我选择困难症犯了之后很难选择。

工作上太忙的话,有一个助手帮助你提升工作效率,并行完成你的任务,这个事情最终看你在技术上怎么应用,哪个方面更有价值,每个人的价值取向肯定也不一样,这个可以理解。

AI搜索也是其中很重要的,在日常生活当中对这个事情的搜索非常大,有了AI搜索之后,大家对信息爆炸之后的检索和阅读负担会压缩回来。

像刚才刘潇讲的,人永远是懒惰的,都想简单,没有搜索引擎的时候大家希望有一个搜索的地方,信息爆炸的时候,希望有一个人帮助我看完了之后给我答案就可以了。

人的需求永远是这样的,往越来越简单,越来越懒的方向演化,所以技术就是帮助大家解决问题的。

来源:AI科技评论一点号

相关推荐