摘要:在Siri联合创始人Norman Winarsky的回忆中,乔布斯在2010年就已经意识到拥有一位可以像真人一样进行真情互动的私人助理能够带来什么样的独特价值。这样的助理将不仅能聊天,有足够的理解能力,还具有帮助用户执行任务的能力。
文 | 窄播,作者 | 李威
乔布斯在2010年给Siri描绘的蓝图,正在成为很多AI助手对自己的期待。
在Siri联合创始人Norman Winarsky的回忆中,乔布斯在2010年就已经意识到拥有一位可以像真人一样进行真情互动的私人助理能够带来什么样的独特价值。这样的助理将不仅能聊天,有足够的理解能力,还具有帮助用户执行任务的能力。
十四年后,一切并没有变化。大家依然在期待出现一个「真正了解自己的,可以为自己做很多事情,并执行跨任务和跨领域命令」的强悍助手。已经曝出的消息显示,OpenAI明年1月可能会发布的AI助手产品,依然在致力于实现自动发送工作邮件、制定旅行计划。
大模型的突破,被认为正在缩短实现这种期待的进程。OpenAI的高管会在不同场合强调AI Agent将会成为下一个巨大突破。美国银行在11月初的一份研报中指出,相比ChatGPT和Copilot,具备更强自主规划和行动能力的Agentic AI正在带来一个超级创新周期。
成为距离用户最近、连接用户最广泛、能促成更多Agent协作的那个AI助手,是这个创新周期内已经被大家意识到的一个平台级机会。
一方面,在大模型的支持下,基于自然语言的交互有望替代更多图形界面交互,任何场景都有被新的交互形式重构的可能性。另一方面,交互方式的变化很可能会打破既有的软件、硬件领域平衡,并在塑造新格局的过程中,可能会迎来既得利益者的衰落与后来者的崛起。
当下的竞争还处在早期。从参与者来看,锐意进取的大模型创业公司,掌握着主要平台的互联网巨头,从互联网巨头夹缝中生存下来的中型公司,以及觊觎软件利益的硬件企业,都在试图抓住这个机会。从竞争层级上看,通用AI助手、垂直领域AI助手、工具型AI助手中都有人在进行探索。
最终,谁在大模型技术、Agent生态、用户获取效率以及商业链路创新等层面积累更多优势,谁就更有可能吃到新的入口红利,在新的食物链中占据更重要的位置。
从GenAI到Agentic AI美国银行在研报中将AI的发展划分成三波浪潮:前GenAI、GenAI和Agentic AI。其中,前GenAI的时间是从1940年到2022年11月ChatGpt发布。在这个漫长的时间里,尽管也曾出现过Siri、Alexa、小爱、天猫精灵等语音助手,但AI的效用更多还是发挥在帮助不同场景实现数据驱动的趋势洞察和决策上。
在截至2024年10月的GenAI阶段里,基于GenAI的应用主要集中在两个方面:一个是实现更自然的人机交流,最早的ChatGPT、智能体、C.AI等都通过流畅的交流赢得了用户认可;另一个是帮助个人提升生产、生活效率,AI搜索、视频生成、代码生成、PPT生成、论文总结等应用都属于这一类。
Salesforce AI Research执行副总裁兼首席科学家Silvio Savarese 认为,Agentic AI阶段「在正转向使用人工智能来自动化整个任务并代表我们采取行动」,与以前的人工智能相比是一场重大的能力飞跃。Gartner预测,到2028年,至少会有15%的日常工作决策将由Agentic AI自主做出。
虽然在2024年,这个比例还是0,但是我们已经能看到一些向着这个方向进行的努力。
首先,大模型开始更加强调上下文的记忆能力,这是形成自主决策的前提条件。Google的AI助手Gemini已经能够记住Google One AI Premium计划订阅用户的生活信息、工作内容和个人偏好。
其次,技术上的突破正在让大模型获得多模态能力和操作APP的能力,AI助手的能力边界不断得到扩充。多模态的大模型能力支持下,AI助手能够获得听读看等多种感知,实现更加自然的交互。理想状态下,通过语音和视频可以实现所见即所得的信息搜索和获取。
智谱推出的AutoGLM和Anthropic推出的computer use在前段时间分别展示了在手机和电脑上实现AI助手操作APP的能力。同时,手机厂商也在发布会上围绕外卖点单、预定餐厅等动作,展示了自己的AI能力。我们也需要承认,这些尝试都在初期阶段,离真正的大规模应用还比较远。
最后,不少企业已经开始依托AI助手搭建自己的第三方AI应用生态,或者说是第三方AI智能体生态。微软推出了全新的AI应用平台Azure AI Foundry,旨在帮助组织设计、定制和维护管理AI应用和AI助手。百度推出了新的无代码AI应用搭建工具秒哒,并宣布要支援创建数百万个“超级有用”的应用程序。
在一位苹果的前员工看来,没有尽快拓展第三方生态系统,是Siri后继乏力的原因之一。在AI助手的语境下,第三方应用生态本质上就是能够被AI助手调用的人才库,通过理解用户的需求、意图,唤出人才库中的相应人才,实现需求的满足。当然,这些人才会包括其它的AI助手,也包括功能性更强的AI化功能。
谁在觊觎话事人之位当下AI助手的竞争很像杜琪峰电影里呈现的社团话事人选举。话事人意味着话语权,话语权往往会与利益的分配权挂钩。因此,上一届的话事人,也就是当下的互联网平台们,不愿交出手中的龙头棍;新被提名者,也就是大模型创业公司,想要进入权力中心;社团元老,也就是硬件厂商,想要平衡各方利益;作为精锐小弟的工具型产品,也需要选择押宝哪一方。
现在看,这次多方博弈的序幕才刚完成了人物出场介绍。大模型创业企业作为下一届的被提名者,是最积极的一方。无论是国内的AI六小龙,还是海外的OpenAI、Anthropic,几乎每一家大模型创业企业都依托对话能力推出了自己的AI助手产品,并不断为其增加内容生成能力和智能体连接能力。
一些有着先发优势和更高关注度的明星企业、明星产品,在光环和资本双加持下,实现了更快增长。10月的数据显示,ChatGPT、Kimi两款大模型创业企业推出的AI助手产品,在全球苹果端AI App下载榜单中占据了第一和第三位。但随着资源从大模型向应用倾斜,一些大模型企业的AI助手很可能会出现后继乏力的情况。
作为上届的话事人,阿里、百度、腾讯、字节等手握互联网平台的大厂也没有放弃竞逐下一届话事人的机会。阿里的通义、支付宝的支小宝、百度的文小言、腾讯的元宝、字节的豆包,都已经搭起了AI助手的框架,并且相较于积累不深的创业企业,这些巨头平台在用户、数据、场景、资源上都有更深厚的积累。
依托现有的优势,这些产品的步伐会更轻松从容。在量子位智库统计的统计中,截至今年10月,豆包的历史累计下载量已经破亿,与第二名Kimi的5700万远远拉开了距离。手握更多平台场景和云服务企业的阿里和腾讯,在AI助手的竞争上则会有更强的系统性优势。
硬件厂商在软硬件泾渭分明的移动互联网阶段并没有吃到移动应用大爆发的红利。从购物到支付,从视频到音乐,硬件厂商都有过自己的布局,小米甚至还推出过有品这样颇有声量的电商应用。但是,直到目前为止,硬件厂商都没有摆脱自己管道化的定位,其互联网服务更多还只是广告收入。
AI助手为硬件厂商提供了一个能将用户习惯、数据积累、屏幕识别、应用操作融为一炉的机会。相比于软件产品,硬件能够为用户提供调用AI助手的更短路径。微软在键盘上添加的Copilot键、iPhone16的相机控制按钮都是唤起AI助手的途径。同时,硬件厂商还更有能力实现端云混合AI,实现数据安全与用户隐私的保护。
工具型产品围绕AI助手有两种路径选择。一种是像钉钉、知乎、夸克和美图一样,从自身的能力积累出发,推出面向垂直场景的AI助手,以自然语言交互和自动化执行更新自己的用户体验,力求延续、甚至扩张自己在移动互联网时代相对独立的地盘。另一种则像什么值得买一样,一开始就将自己的内容积极融入到其它AI助手中。
龙头棍背后的几个支柱最终决定谁将成为话事人的,是龙头棍的归属。某种意义上,不是龙头棍选择了谁,而是谁更有能力拿起龙头棍。这里的能力是各个帮派大哥综合实力的体现。回到AI助手的话事人争夺中,这种综合实力会涵盖模型能力、业务场景、用户获取、软硬件整合等方面。
第一,基础模型的能力进步依然很重要。无论是对用户意图的精准理解,还是对应用、其他Agent的更灵活调用,都还是需要依托基础模型能力的提升来实现。
特别是各家给出的对图形交互的替代方案,都需要依托模型能力实现对屏幕和窗口的理解与操控。有媒体报道称,谷歌的Project Jarvis项目,就是要开发一个新的模型,将其运行于Gemini模型之上,在浏览器内实现截图解释、点击按钮和输入文本。
第二,助手能够链接的能力的丰富度会决定入口的层级高度。AI助手不会出现一家独大的情况,更底层的AI助手会有更多分发权。足够丰富的Agent生态意味着足够的能力供给,能够将众多能力整合在自己的生态内,也意味着自己会成为更底层的AI助手。
可以看到,与原生的AI助手一样,具备平台能力的产品都在AI化的同时,在尝试提供更便利的工具,让其接入更多Agnet能力。大的诸如前文提到的微软、百度,以及字节的扣子,都是在用工具孵化生态,将更多开发者的成果注入到自己的AI助手上。另一方面,Slack、钉钉,也在向开发者开放垂直场景,丰富自己的能力储备。
第三,硬件与助手会是一体两面,软硬产厂商需要找到助手时代的相处之道。在荣耀CEO赵明看来,新一代的AI OS,如何理解、如何服务消费者、如何在屏幕内操作和跨系统操作,以及如何与云端的AI智能体的协同,都是全新的课题,给大家提供了一个换赛道超车的机会。
不仅是荣耀,小米、vivo、OPPO应该都想要抓住这个重构AI OS的机会,在苹果和Google手中拿到更多系统层的话语权,同时在与互联网平台的相处中占据更多主动。同样的,推出AI耳机的字节、推出AI眼镜的百度,未尝不想在实现自己的软硬一体,端云融合。也因此,找到一个能同时满足软硬件利益诉求的AI助手商业链路会变得至关重要。
第四,在模型能力、产品体验、生态成熟度相差不大的情况下,助手之争还是流量之争,成为AI助手话事人的前提是以更低成本掌控更多流量。在这方面,硬件厂商和互联网平台有着天然的优势。豆包能够远超Kimi,META AI用户数能够超过5亿,都离不开低成本流量的支持。
相对的,新势力的投流买量压力会越来越大。App Growing数据显示,Kimi在10月投放量飙升,20天投出1.1亿元,接近其整个第三季度的总和。同一时间段内,豆包投出了1500万,腾讯元宝在广点通投了3000万。整个第三季度,Kimi投出了1.5亿,豆包则投出了2亿。
德勤在一份报告中指出,对比两轮信息革命升级,应用价值实现与基础技术的升级密不可分:围绕数据资源的基础设施更新有效推动应用场景的拓展和功能体验的创新,最终引发新生态的构建,生成了用户入口的超级应用;AI 时代用户的注意力争夺成为应用发展的重中之重,未来将诞生新的用户入口。
AI助手之争,最终依然是入口之争,分发权之争。只不过,这一次的胜利者,依靠交互、决策与执行的升级,有更大的可能实现C端与B端的通吃。
来源:钛媒体