当AI看懂世界,谁还懂人心?

B站影视 内地电影 2025-10-26 22:18 4

摘要:十年前,扫码支付改变了中国人的生活。最近,一款名为“灵光”的App,或许正在改变人与信息的交互方式。它由支付宝(杭州)数字服务技术有限公司开发,最近在腾讯应用宝和vivo商店悄然上线。

十年前,扫码支付改变了中国人的生活。最近,一款名为“灵光”的App,或许正在改变人与信息的交互方式。它由支付宝(杭州)数字服务技术有限公司开发,最近在腾讯应用宝和vivo商店悄然上线。

最特别的地方,不在聊天,不在内容,而在相机。举起手机,AI就能识别并理解现实世界——从账单到商品,从街头场景到一张发票,拍照即可提问、拍照即可理解。

这不是一次普通的功能升级,而是蚂蚁集团在AI时代的新尝试。第一次,它用二维码让机器认识人,这一次,它想让机器理解世界。

从“识别”到“理解”:AI的边界在扩张

AI能识别世界,这件事我们早已习惯。但让AI去理解世界,仍是一道难题。

灵光背后的核心模型 Ming-Lite-omni,正试图跨过这道坎——不只告诉你“这是什么”,而是告诉你“这意味着什么”。

比如拍一张停车缴费单,它会问:“是否需要支付?”;拍一份发票,它能判断“你可能在报销”;甚至拍一张菜谱,它能延伸出健康建议。这种“场景级理解”,让AI第一次具备了语境意识,不再等待输入,而是主动捕捉用户的意图。

赛迪研究院数据显示,2023年我国大模型市场规模已达132.3亿元,同比翻番。业内预测,到2030年这一数字将突破2200亿元,年复合增速超过40%。多模态智能被认为是增长的关键引擎,也标志着AI产业从“语言理解”迈向“视觉认知”的新阶段。

技术上,蚂蚁采用了端云协同架构——在本地进行初步识别,在云端完成语义推理,延时控制在500毫秒内。对用户来说,这种“抬手即懂”的响应,第一次让AI显得不再抽象。

但“理解世界”的另一面,是对数据边界的再定义。每一帧图像、每一段语义分析,都意味着一次潜在的隐私接触。AI看懂世界的同时,也在重新定义“看”的权力。

而当技术具备了理解力,真正的问题变成——谁能把它变成新的入口?

入口的重写:从扫码支付到认知入口

支付宝曾经是中国互联网“连接”的象征。二维码的普及,不只是支付的效率革命,更让无数线下商户第一次接入了数字世界。

但当扫码支付成为日常,入口也成了惯性。流量见顶、增速放缓,蚂蚁必须重新寻找一个能重新打开想象力的起点。灵光,也许就是那个新的入口。

这一次,支付宝不再做“被扫的工具”,而是想成为“主动理解的助手”。

当AI能看懂场景,交易的触发方式就从点击变成了语境:

拍商品,AI能直接识别SKU、引导购买;
拍账单,能自动识别金额并生成报销凭证;
拍车牌,能直达停车缴费;
甚至拍体检单,也能识别异常数据,顺势推荐保险。

据QuestMobile数据,2024年移动支付用户渗透率已超过96%,增速降至个位数。支付宝仍是巨无霸,但增长的空间越来越窄。灵光的价值,在于重构入口逻辑——让支付不再只是终点,而是理解现实的起点。

扫码改变了支付,而理解,可能改变商业。支付宝想要的,是让AI成为现实世界的操作系统——理解人、理解物,也理解交易背后的动机。

AI的聪明,不代表它轻盈

从体验上看,灵光几乎是移动端AI的一次极限实验。
但它的“轻盈”背后,是算力和能耗的双重重量。多模态模型极度吃资源,端侧推理功耗高、延迟大,不同机型之间差距明显。

根据vivo开发者大会上相关技术介绍,移动端大模型推理的能耗通常是传统图像识别任务的3–5倍。如果启用多模态推理,峰值功耗可达普通App的十倍。一位测试者形容:“几分钟之内,手机已经发烫。”业内估算,一次完整的多模态推理能耗在2.5至3瓦之间,这让“随时看懂世界”的理想,暂时还不够轻盈。

更现实的挑战在于隐私。相机识别意味着接触敏感数据,从身份证到账单、从医疗影像到人脸。灵光必须在“本地处理”与“云端协同”之间找到平衡,否则越聪明,越危险。一个能理解世界的AI,也必须先理解什么叫“克制”。

商业上,灵光还没有清晰的变现模式。它既不是广告平台,也不是会员体系。最合理的想象,是在支付体系内形成“AI+交易”的闭环:让AI理解、推荐、支付、留存。但这条路也并不轻松,当几乎所有App都在嵌入AI时,用户是否还需要另一个“懂他”的应用?
真正的竞争,也许不是谁更聪明,而是谁更节制。

AI入口的中国路径:从内容智能到场景智能

在全球 AI 版图里,路线正在分化。

国外 AI 更强调内容生成,追求模型能力与创作表达;中国 AI 则更注重场景落地,从算法突破转向产业融合。字节用豆包打通内容链,阿里依托通义重塑购物与服务入口,百度以文心稳住搜索与问答阵地,而蚂蚁,则把 AI 嵌进生活。

更具体来看,这几家头部产品的重心正在分化:
豆包以内容生成为主,偏向 C 端娱乐与知识延展;
文心强化搜索与问答,聚焦信息检索与知识增强;
灵光则选择“场景理解 + 交易闭环”的路径,更接近业内所称的“视觉即服务”(Vision-as-a-Service)思路——让相机成为入口,让理解成为服务。

灵光的价值,不在它能做多少,而在于它能靠多近。它把 AI 从屏幕里拉到了街头、餐桌、账单与生活的缝隙里——那是中国式 AI 最熟悉的战场。

从产业视角看,这是一条更稳的路径。在缺乏 OpenAI 那样庞大算力的前提下,中国企业正以“场景密度”对冲算力差距,让 AI 从理解世界开始,而不是试图改造世界。

行业数据也在印证这种转向。《2025年产业AI应用热力报告》显示,超过一半的 AI 应用集中在消费类场景,其中商品检索、智能推荐、虚拟客服等位列前三。国务院在《关于深入实施“人工智能+”行动的意见》中,也将“人工智能+消费”列为重点方向,政策驱动下,消费与生活服务场景正成为 AI 落地最密集的阵地。

在市场端,消费行业几乎成了 AI 增长的主引擎。艾媒咨询数据显示,2025 年电子商务领域中,AI 数字人企业占比已达 16.49%,居各行业之首;IDC 报告则指出,2025 年上半年中国 AI 云市场规模达到 223 亿元,同比增长 148%,增长主力正来自消费与生活服务领域。

综合多方预测,到 2025 年,中国 AI 应用部署中将有六成以上集中在消费与生活服务场景。金融、医疗、零售等现实行业,也正在成为多模态智能落地的主阵地。
对蚂蚁来说,“灵光”并非一次孤立的实验,而是让 AI 深植商业肌理、回到真实生活的战略延伸。

最后

短期内,灵光或许难成爆款。但长期看,它可能是支付宝下一个十年的“二维码”。

灵光的出现,是支付宝在AI时代的一次再造。它既展示了蚂蚁的技术野心,也暴露了所有巨头的焦虑:当AI的入口越来越多,入口本身的意义,正在消失。

从扫码到识界,再到支付理解。这场变革真正考验的,不是算法的聪明,而是信任的重建。AI可以看懂世界,但却未必懂人,算法可以精准推荐,却无法重建信任。

也许,“灵光”照见的不只是世界,还有我们自己。技术的光照亮了前路,也照亮了人心。真正的入口,从来不在镜头里,而在人与世界的理解之间——那才是灵光的真正考题。

注:本文基于公开上线版本及行业分析撰写,部分功能细节可能随产品迭代调整。

来源:科技不许冷

相关推荐