苹果又放鸽子了

B站影视 电影资讯 2025-03-18 00:09 1

摘要:去年5月苹果的财报会议上,分析师们集中火力在问苹果在AI上做的努力,苹果却三缄其口。科技圈里,也一直讨论着苹果在AI领域进展太佛系。

哎。苹果又放鸽子了。

去年5月苹果的财报会议上,分析师们集中火力在问苹果在AI上做的努力,苹果却三缄其口。科技圈里,也一直讨论着苹果在AI领域进展太佛系。

没想到,一个月后,苹果全球开发者大会就整了个大的:大会花了大量篇幅,讲解了苹果即将推出一套个人智能系统。

Apple Intelligence。

并且还宣称,在此基础上,苹果的语音助手Siri会有一个改革性的升级,变成一个AI智能助手。消费者能通过简单指令,就能一键调动多个APP来完成任务,并且能在各种APP里进行“AI生成”。

大会上,苹果公开宣布了推出时间。搭载AI的Siri,最早能在去年夏天推出美国英语版试用,秋天会升级到Beta版。其他语言版本,则会在今年推出。

接着一段时间,苹果就一直在官网和广告中,不断宣传这套个人智能系统:

Apple Intelligence和升级版Siri。

这太酷炫了。太让人期待了。

然而,秋天过去了,苹果Siri升级的事,跳票了。

没事,那就等今年。等啊等,却等来了路透社的报道。今年3月7日,苹果公司宣布,把Siri的AI升级功能推迟到明年发布。

根据苹果发言人杰奎琳·罗伊的表述,这次跳票,主要还是技术问题没有完全攻克。我翻译了一下,大概是这么个意思:

“Siri帮助我们的用户找到他们需要的东西并快速完成任务,在过去的六个月里,我们让Siri更具对话性,引入了Siri类型和产品知识等新功能,并增加了与ChatGPT的集成

我们还一直在努力打造更加个性化的Siri,让它更了解你的个人背景,并能够在你的应用内和跨应用为你采取行动。

实现这些功能需要比我们预想的更长的时间,我们预计将在明年推出它们。”

去年到今年,今年到明年,明年又要到何时?

科技圈炸开了锅:“技术准备都没到位,你们在宣传些什么?”

于是,开始有人质疑苹果的创新跟不上时代,也有人讽刺苹果原本有着先发优势的Siri现在却成了落后者。

那么问题来了,苹果说的这个技术到底是什么?怎么把苹果这样的大科技公司都难住了?

其实,不仅是苹果,科技公司比如谷歌、亚马逊等等,只要是在做AI智能助手的,都在面临同样大难度的技术挑战。

所以,想弄明白这些问题,首先,就得从这个词开始说起:AI智能助手。

AI智能助手

老读者可能知道,前几天,我在机场遇到了阿里巴巴B2B前总裁卫哲。我们聊了聊他在网上大火的关于未来的三大预测。回来我也写了篇文章,放在参考资料里了,感兴趣的朋友可以点击查看。

其中一个预测,就是“3年内APP会少一半”。

为什么少一半?卫哲提到,因为一个新的东西在路上了:AI智能助手。

卫哲说,现在我们出差,比如从上海到三亚,一路得打开五六个APP。订机票的APP,订酒店的APP,看天气的APP,选餐馆的APP,查路线的APP,支付的APP,聊天的APP......

但如果有AI智能助手呢?几句指令,它就帮你安排好一路的行程。

而这个未来,或许正在到来。

早在2016年,谷歌随着初代手机Pixel推出了智能助手Google Assistant,通过它,消费者可以用手机、音响、手表来语音控制智能家居设备。

然而前几天(3月14日),谷歌却突然宣布,Google Assistant要逐步停用了。

停用,不是因为“智能助手”不行了,而是因为智能助手得升级,变成“AI智能助手”。甚至,要升级成语音控制的AI智能助手。

嗯。那以前不早就有了智能音响吗?现在的这些智能助手跟那些智能音响,有什么区别呢?

区别挺大的。大在,它开始能理解你的话了,并在跟你沟通交流的同时,自己去调动其他工具来协同实现你的指令。

去年,谷歌的AI助手Project Astra在谷歌开发者大会上首次亮相。

大会上谷歌展示,这个AI助手可以和使用者沟通交互,能记住过去10分钟内的信息,可以给出时尚建议,甚至会主动提醒用户“别忘了你需要买橙汁,因为你今天早上喝完了”。

同一年,亚马逊也推出了专注购物体验的AI助手Rufus。在印度市场,它能根据天气、节日、区域品牌来给出购物建议。

还没完。今年2月,亚马逊紧接着宣布了通用智能助手Alexa+的上线,订阅费用19.99美元/月,对Prime会员免费。

根据发布会,它能支持预订餐厅、安排维修服务、提醒重要事件。关键就在于,它开始能记住用户的偏好和习惯,能根据用户的需求,定制化服务了。

今年2月,华为也宣布,他们的AI智能助手小艺开始接入DeepSeek-R1了。不少网友拍了视频,分享各种“小艺成精”的场景。

到了今年3月,谷歌的Project Astra虽然还没有面向公众全面亮相,但是部分功能已经向一些付费订阅用户逐步推出。

一个、两个、三个......苹果在哪?

苹果,好像在这一轮的AI助手擂台赛上,“掉队”了。

14年前,Siri诞生。诞生初期,苹果给它的愿景,是成为一个“谦逊的私人助理”。

但是14年过去了,Siri似乎并没有那么“好用”。消费者们依然在社交平台上吐槽Siri,说它还是一个半天听不明白话的傻白甜。甚至,有时候连唤醒它都很困难。

于是,就连果粉都忍不住开始灵魂拷问:苹果你行不行啊?

具体哪里的技术出了问题,具体跳票是因为什么,我们不由而知。苹果产品的保密工作,一直都是业内顶尖。

但是,官网上被悄悄删除并修改的内容,或许能让我们窥探一二。

这个内容,就是:上下文理解能力。

上下文理解能力

有网友扒出来,在苹果宣布Siri升级推迟后,官网上相关的描述,有一处被明显删除了。

在之前,是:

“凭借更丰富的语言理解和对个人上下文的感知,Siri比以往任何时候都更智能、更有用。”

现在,改成了:

“凭借更丰富的语言理解和对设备的全面产品知识,Siri比以往任何时候都更有用。”

根据苹果开发者大会描述,后面这个“对设备的全面产品知识”,意思是关于苹果各种产品的问题,你可以调用Siri给你答复。这样你就不用去自己去挨个搜索,也不用专门打开产品说明书挨个找自己遇到的问题到底对应哪一个专业名词。

你直接描述你遇到的问题场景,它就能帮你检索到对应的答案。嗯,听起来跟常规的智能体,似乎差别不大。

但是,被替换掉的这个“对个人上下文的感知”,却是个改革性的功能。

打个比方。

我们从小考这么多次试,都知道一个很烦的题型,叫“阅读理解”。以前还经常爆出新闻,说让作者本人来做这些阅读理解题,他都没办法拿满分。

而这个“对个人上下文的感知”,则是给AI助手做的“阅读理解”。AI要理解的东西,是我们随口说出的话。

要知道,人说的话,往往是有背景、有场景的,而且,不一定很有逻辑。所以AI需要消化一串又一串,不那么清晰的指令。更别提,中间还时不时会出现各种错误修正。

谷歌和亚马逊的智能助手,都已经具备记忆能力。也就是之前说过的话,会被记住,你不用重复说。

但是记下来,并不等于理解了。理解,还需要更进一步。

根据苹果开发者大会的内容,他们宣称:“升级后的AI助手,理论上会更自然地跟你进行上下文对话。”

比如现在,你站在我面前,我们对话。你说上一句,我听到了,当你继续说下一句的时候,是不会再次重复上一句的内容的。

你说“待会儿怎么去苹果花苑”,我以前和你聊过天,知道你母亲住苹果花苑这个信息。那么,你去那里往往是去看望母亲。所以我在回应的时候,可能还会提醒你一句,给母亲带上她爱吃的水果,附近那条街有水果店,你可以去看看。

这都是因为,我对你有一定的了解,能自动联想背景,理解前后句,自动在大脑里把它们关联起来。而AI智能助手就能像我一样,去自然理解你的指令。

具体的,苹果官方举了例子。

事情的关键在于,当苹果连夜删除“上下文理解”相关的表述之前,已经有科技公司把这个功能做出来样品了。比如,亚马逊的Alexa+。

根据Alexa+的官方描述和使用者的体验,你如果问它“西雅图的天气怎么样?”之后,接着问“这个周末呢?”Alexa+能够理解你这时仍然在问西雅图的天气情况。

它不会从“这个周末呢?”开始理解,然后回复干巴巴的“我没听懂你的意思”。

另外,当你用Alexa+次数多了,它会记住你和家人的各种偏好,在你下一次调用它的时候,比如问“去哪里吃?”它会根据你们的饮食偏好来推荐适合的食谱或餐厅了。

作为智能家居领域的AI,你还可以让Alexa+调用家里带有AI功能的摄像头,分析摄像的视频,然后告诉你家附近发生了什么。比如确认是否有人遛过狗。

实现这样的功能,具体的技术细节还有各种差异。但是想要实现它,至少得动用上一个大模型,它叫:多模态AI模型。

亚马逊的Alexa+部署在Claude和Nova模型上,这些模型系列里就有多模态AI模型;

根据华尔街见闻报道,最近爆火的Manus,AI代理部分则是基于Anthropic的多模态AI模型Claude 3.7 Sonnet;

而苹果的升级版Siri,据说是基于OpenAI的多模态AI模型,ChatGPT-4o上。

多模态AI模型,是能理解上下文的能力“基石”。

但是,它到底是什么东西?

多模态AI模型

信息,是有不同的载体的。

常见的比如,文字、图片、音频、视频,它们就是四种不同类型的“模态”:

当ChatGPT刚开始出现的时候,只能通过文字生成文字;

Midjourney刚出来的时候,开始文字生成图片,然后图片继续生成新的图片;

Sora出现后,文字可以生成图片,也能生成视频,图片也能生成视频了。

慢慢的,这些不同信息载体之间,都可以互相生成、识别。这,就是多模态AI模型。

苹果作为头部科技公司,虽然开发者大会上宣布的技术不一定部署完备,但是它所描述的方向,一定是行业内所期盼的一个方向。

苹果的Apple Intelligence据说会有一个重要功能,叫:屏幕内容感知功能(On-screen awareness)。

它宣称能实现的功能,是“理解屏幕内容,并执行相应操作”。

屏幕上有什么内容?新闻弹出的文字,APP排布的图画,以及你在各种APP之间不断切换和使用的视频。

要理解这些内容,就得搭载优秀的多模态AI模型,能支持文本、图像和音频的输入与处理,能理解、生成文本、图像和音频等等多媒体格式的内容。

所以,其实到这一步,苹果已经给自己叠了至少两个难度。

1)如何“催熟”多模态AI模型

ChatGPT-4o毕竟是第三方提供的大模型。

苹果如何把这一套完美嫁接到自己的系统,并且真正实现他们宣传的功能,有难度。

2)使用大模型“免费”后怎么“收费”

苹果把ChatGPT-4o嵌入了全系统来创作内容,而苹果产品的消费者,不用创建账户就能免费试用。

那么,除了购买苹果新机这一次性的收入之后,还有哪些收入来覆盖大模型的消耗成本,也是苹果需要思考的问题。

而且,苹果宣称的AI升级功能,到此还远远没完。

根据宣传的描述,消费者可以直接在各种APP里面,不断玩转各种媒体类型的内容:

用文字,来搜索照片。用文字,来画图。甚至可以通过文字描述,找到一段视频当中的特定时刻,你可以直接跳转到对应的片段。

最关键的,还有开发者大会上的这句话:苹果系统中的所有APP都能用,而且可以跨多个APP执行操作。

而要实现“跨APP”,你就得明白什么是API。

API

无数个APP应用,就像是一间间小房子。而你的AI智能助手,就像一只小狗。小狗要在房间之间穿梭,要是房间严丝合缝没有出口,就不可能实现,对吧?

那么,房间和房间之间,得有小狗门。而这个小狗门就是API,它有个名字,叫“应用程序编程接口”(Application Programming Interface)。开发者还可以通过控制小狗门开关,限制使用权限。

通过API,AI助手可以调用不同APP的功能。比如,通过日历APP的API获取日程,通过地图APP的API规划路线。

如果没有API,意味着多模态AI模型没有一个内容出口,APP之间没有“小狗门”。那么,信息就会是封闭的,又怎么可能实现调用呢?

API,就是多模态AI模型能被我们寻常消费者“看到”和“应用”的内容出口,也是实现跨APP操作的桥梁。

那么,假设苹果技术研发顺利,会呈现出怎样的效果呢?

API做好了,很赚钱。但是之前,主要是在企业服务领域赚钱。

给你举个典型的例子。

OpenAI的劲敌,Claude的制作开发公司Anthropic,在一年内把收入增加了十倍。3月初,Anthropic宣布完成35亿美元E轮融资,投后估值高达615亿美元。而这,是其他许多软件公司十年都实现不了的战绩。

和OpenAI不同,他们很大一部分收入,是对企业的API业务服务收入。

根据华尔街见闻的报道,它的年化收入中,有高达85%来自API业务。相比之下,OpenAI只有27%。

的确,对于toB的企业来说,内外部的应用程序多如牛毛。光是给他们做好“小狗门”,实现各种多模态AI模型的内容输出,就足够撬动一个很大的蛋糕。

但是苹果这次的宣发,却瞄准了toC端:个性化智能系统(personal intelligent system)。

也就是说,Anthropic靠toB迅速扩张、融资,而苹果却打算靠toC来入局AI智能助手围剿战。

苹果给自己的难度,又上了一层。

这个性化智能系统,到底是什么好东西,值得苹果如此追求?

个性化智能系统

关于个性化的场景,苹果举了个日程安排的例子,让人印象很深。

以防你不方便看视频,我也给你整理在下方:

假设我有一场会议改到了傍晚,我想知道开完会后能否赶上女儿的演出。此时,AI助手会处理相关个人数据:

1)它知道我的女儿是谁,2)也知晓她前几天发给我的演出详情,3)还掌握这场会议的时间和地点。此外,4)它能预估我从公司到剧院途中的交通状况。

所以,苹果这一步需要实现的功能,是消费者只需要给出一句指令,AI助手就能提供一个不错的解决方案。

不仅是实现各种各样的任务安排,而且,是完全围绕着“你是谁”、“你的人际关系”等等个人信息,来提供的助力。

比如,你给上司发邮件,会根据你们之前的来往信息,自动生成可能的回复方案,或者在邮件最上方给出摘要。

又比如,在备忘录里面,你画的草图,会一下子生成更精致的图片。你可以在一大段文字旁边,圈出一片空白,让AI助手去理解你的文字,从而生成相关的图片。

就像Craig说的那样:

“其他的许多AI工具,能利用全世界的知识来执行大量的任务,但很少能充分了解你或你的需求......而苹果这项智能技术的真正独特之处,是能理解你的个人情境。

哇地一声哭出来。苹果,它想了解我哎。但是,怎么了解?

除了前面提到的那些技术,还得靠:语义索引。

语义索引

什么是语义索引呢?

它就像是一位优秀的图书管理员,给所有图书馆里面的信息,分类打上标签。当你想查询,就知道去哪一个小房间的哪一个架子上找到。

只不过,在人工智能领域的语义索引,用上了更精细的技术,像是“自然语言处理(NLP)”和“机器学习”技术,来理解和组织数据、信息。从而,可以给照片、日历和文件,甚至往来消息和邮件里的内容,创建语义索引。

再加上多模态AI模型嵌入后,AI助手就不仅仅只能给文字打标签,还能给图片、音频、视频打标签了。

并且,因为有API这个小狗门四处接入,其他开发者如果想用这些功能,就可以通过新的API整合到自己的APP里面。

如果技术顺利,那么,当你都忘了一份书单你存在哪里了,或者填写表格的时候记不得驾照号码了,你都可以直接语音调用AI助手,帮你找出来。

听上去确实很美好。但是技术上要实现,也的确很不容易。

不仅如此,苹果给自己的挑战还没完。因为,既然要实现个性化智能,怎么可能不去使用你的隐私数据呢?

所以,还有一项技术功能需要实现,那就是对用户的个人信息,只识别,但不搜集。

怎么做?

设备端处理

识别,需要AI大模型。而不论是多模态AI模型还是生成式模型,往往都是很大很大的东西。一般来说,很难放进你的口袋。

那么,你能做的一件事,就是把你刚好需要的那一小部分,装进口袋。

那么,可以通过对大模型的模型剪枝、量化和蒸馏等技术,把复杂的AI模型,简化成可以在手机这么小的设备上运行的小模型。

的确,对于数据的处理方面,服务器能帮忙。但是传统的服务器,往往会在你不知情的情况下,储存你的数据。

又因为服务器软件只有所有者才有资格访问,所以你无法验证数据是否被搜集,或者被挪用。这样就容易导致各种问题,比如我之前写的文章《DeepSeek会被美国封禁吗?》里就提过,关于数据监管权的纷争。

那如果想绕过这些纷争呢?或许,可以通过设备端处理来承接。

设备端处理(On-device processing),顾名思义,就是直接在手机、电脑等设备上处理数据,而不是传输到别处。

而且,这样做还有一个好处,那就是不需要联网就能使用。

这样一来,手机搭载了小模型,就只需要对于要处理的信息数据进行“识别”,而不是搜集储存起来。

但是,这样做也有它的局限。毕竟规模小,能处理的信息也小。

当涉及到需要大量运算才能解决的问题时,怎么办呢?

还得用上云计算的技术。

云计算里所谓的“云”,指的其实是网络。云计算,就是通过网络来提供服务器、存储、软件等等技术,然后按需使用和付费。

比较常见的应用,比如百度网盘。你可以选择把文档储存在电脑本地,也可以存在百度网盘,就不会占用你本地的内存了。

但是云计算存在的问题,就是在用网络来处理、存储数据的同时,你的隐私或许也跟着走出了家门。

所以,苹果还得用一种特殊的云计算:私有云计算。

私有云计算

私有云计算(Private Cloud Compute),重点就在于“私有”,就是把iPhone上的隐私和安全保护功能,膨胀扩展到云端。

当你需要大量的计算时,苹果手机或者电脑就会自己去识别,把和任务相关的数据,提取出来,发送给Apple芯片服务器处理。

比如,你语音问Siri要一份菜谱,Siri如果觉得ChatGPT能帮你,会向你征求允许之后,用大模型来给你生成答案。

又比如,你在装修阳台,可以拍一张照片,问它这个地方用哪一种植物会更好看。Siri也会在确认是否能跟ChatGPT分享照片之后,调用大模型来帮你回答这个问题。

这件事的难度,至少有二。

一来,得保证真的“私有”。

独立专家可检查,代码透明。消费者如果想验证你是不是真的守住了隐私,还可以验证。

二来,算力要跟上。

到了这一步,对算力的要求就会比寻常使用设备要高很多。用什么驱动这些数据处理呢?AI芯片。

这又是一个技术攻坚。就拿组成芯片的硅片来说,一个12英寸的硅片,平整度控制在1纳米以下。这就意味着,从北京到上海这一路上,最大地面起伏得在4毫米以内。

高端AI芯片的研发难度,可想而知。

呼。到了这一步,还没完。

这么多的任务,都交给AI一层层处理,出现幻觉怎么办?

AI幻觉

幻觉,简单来说,就是一本正经地胡说八道。

相信使用过AI的朋友,都经历过这样的AI幻觉:你问它一个问题,它回复你一个不着调的答案。

那么,当我们回过头来再看看AI助手做的事情,你就会发现,每次一个指令被执行背后,是一个任务被拆成了几步、十几步甚至几十上百步。

这会出现什么问题呢?

假设每一步,AI可以准确成功执行的概率是90%。这听起来挺高的,对吧?

但如果是每一步都累计起来呢?

所以,当AI助手处理简单任务的时候,效果还不错。但是复杂任务,还是不那么如人意。

相信通过今天的文章,你已经能理解,苹果宣布推出的这个AI助手,完成的任务大多都是一层套一层,多步骤、很复杂的任务。

就拿我们前面已经提到的8个关键词,每个关键词都对应着无数个任务。8个90%相乘,成功率就砍半变成了43%左右。

那80个90%、800个90%相乘呢?报错就算了,关键它还编造得让你识别不出来,耽误事。

另外,根据一些AI助手的测评反馈,普遍还会受到“确认问题”的困扰。什么意思呢?

现在刚开始使用一个新APP的时候,你是不是想加入照片还得“确认访问”?同样的局限也会出现在AI助手上。当它开始疯狂调用各种APP的时候,小狗门不断找你确认才能打开,那得多烦啊。

当你忙着火急火燎地出差,每一次交易,都还得你确认才能进行下一步。订火车票订这个时间段可以吗?请确认。订酒店订这个可以吗?请确认。打车选专车还是快车?请确认......

即便AI助手已经可以帮你突破重重技术阻碍,开始执行多个任务了,你还是得守在前面盯着看。

AI助手的便利性,就会大大降低。所以,这又是一层需要克服的难题。

这其实和你自己一个个APP去操作相比,说不定自己操作还更好一些。

对。又双叒叕一个技术难题。

难走的路

哎。梳理这些技术难题的时候,挺感慨的。

最近几年,苹果的情况,也不是很乐观。倒不是说他们出了什么大问题,但是毫无疑问,苹果距离我们回忆中巅峰时期的那个印象,确实有差距。

尤其是乔布斯乔帮主掌舵的最后几年。2007年,苹果发布了第一代iPhone。2008年,苹果应用商城App Store上线。2010年,苹果推出了平板电脑iPad。2011年,苹果成为了全球市值最高的公司。

然而2011年之后,许多果粉都说,乔帮主的离世,标志了苹果辉煌时代的结束。

虽然,苹果在库克的领导下,市值和财务表现依旧高歌猛进。2018年苹果成为首家市值突破1万亿美元的公司。2020年,苹果市值翻倍,突破了2万亿美元。

这些不断膨胀的数据之下,科技圈却一直讨论着苹果在创新上的“减速”。

但,即便在这样的情况下,苹果其实依然选择了一条挺难走的路。

这次跳票之后,很多技术分析人士也都在讨论苹果的技术卡点。如果只能用一个关键词来说的话,大概是:一致性。

Apple Intelligence和AI升级版Siri要想做出来,就必须把之前不断膨胀出来的各种事物,统一。

比如,系统的统一。

你可能不知道,苹果其实有两个系统。一个是负责处理传统任务的简单系统,一个是负责复杂查询的高级系统。AI助手想要顺畅运行,就得统一这两个系统。

同理,还有手机、电脑、平板、VR眼镜等苹果设备之间的统一。又比如第三方语言模型接到苹果系统,隐私保密功能的统一。

所以,AI智能助手都要攻克的,比如上下文理解能力,多模态AI模型,API、AI幻觉等等,苹果要想出头,不说做得更好,至少得满足平均水平,对吧?

实际上,亚马逊的Alexa+也曾经历过多次延迟发布。测试中出现了回答错误的问题,跳票。响应延迟影响了用户体验,跳票。又比如AI模型的训练数据不足、资源分配问题,以及与旧设备的兼容性问题......跳票。

而在满足AI助手通用功能的基础上,想要打出差异化,还有苹果自己想要做的个性化智能系统,语义索引,设备端处理,私有云计算。

等等等等,等等等等。又在苹果的肩上,压下了重重的几笔。

所以你就明白,这次苹果宣布的AI升级,太难了。

苹果到底遇到了什么,我不知道。但是想要做好AI智能助手,想要打出差异化,它就是这么难。

就像乔布斯曾说过的那句话:

“ 消费者并不知道自己需要什么,直到我们拿出自己的产品,他们就发现,这是我要的东西。”

我也不知道苹果什么时候可以攻克,甚至不知道能不能攻克。

但是,毫无疑问,苹果是一家伟大的科技企业。还有这么多的粉丝朋友,在翘首以盼改革性的产品出现。

所以,祝福苹果,早点攻克技术难关。

继续创新。

继续。Think Different。

*个人观点,仅供参考。

主笔/ 木言声 编辑 / 二蔓 版面 / 黄静

来源:刘润商学

相关推荐