摘要:10月30日,北京举行的2025年世界科技与发展论坛上,33个国家的科技领袖们反复讨论着一个主题:“人工智能促进科技与发展”。就在同一天,中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。
人工智能的赛场边界正在消失,谁能在同一个模型中打通文字、图像与动作,谁就能掌握下一个时代的主动权。
10月30日,北京举行的2025年世界科技与发展论坛上,33个国家的科技领袖们反复讨论着一个主题:“人工智能促进科技与发展”。就在同一天,中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。
这不仅是又一个大型语言模型,而是以自回归方式实现了对多模态序列的“Next-State Prediction”(下一状态预测),获得了可泛化的世界建模能力。
当我们还在为聊天机器人写出的一句首诗惊叹时,AI的竞争已悄然升级。从单纯的文本理解到对视觉、动作乃至现实世界的全面感知,人工智能正从“语言天才”向“全能选手”跃迁。
---
01 模型竞争新态势
世界银行10月27日发布的《究竟是谁在使用生成式人工智能?》报告揭示了这一领域的激烈竞争态势。
在2025年4月访问量最高的五款工具中,有9个新晋工具进入了访问量前60名的行列。
DeepSeek、Grok等新兴平台表现突出,短时间内迅速崛起,已跻身全球前五。
曾经的王者ChatGPT依然以77%的市场份额保持领先,但与2023年的89%相比已明显下滑。AI领域“一家独大”的局面正在被打破,多元化竞争格局已经形成。
摩根斯坦利美国软件研究主管Keith Weiss在AlphaSummit 2025技术峰会上表达了类似观点:“历史上通常不会出现一个万能解决方案包揽一切。这就是为什么亚马逊不是零售的全部,也是为什么我们仍然有Wayfair。”
这种竞争格局下,专用工具与通用模型正在寻找各自的生存空间。
“我不认为我们会到达一个模型无所不能的境地。相反,这些模型将变得越来越聪明,最终就像你公司里最聪明的工程师,但只专注于某一项特定任务并且做得极其出色。”一位AI专家在9月份的Tegus专家访谈中如是说。
02 多模态成为突破口
在此背景下,“悟界·Emu3.5”的发布展示了中国在AI多模态融合方面的探索。
该模型不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力,还能完成文图生成、图片编辑与时空变换。
这意味着AI开始从“感知”走向“行动”,从理解世界走向改变世界。
多模态能力正成为AI竞争的下一个焦点。Gartner在2025年人工智能技术成熟度曲线中指出,AI行业焦点正在转移:从生成式AI的炒作热潮到以责任为驱动的基础创新构建。
报告中,生成式AI已进入“泡沫破裂低谷期”,企业开始深入了解其潜力和局限性。
尽管2024年对生成式AI的平均投入高达190万美元,但仅不足30%的AI领导者表示其CEO对AI投资回报感到满意。
同时,麦肯锡《2025年技术趋势展望》报告则将代理型人工智能(Agentic AI)列为首次纳入重点观察的新趋势。
这类AI智能体本质是一类具备规划、执行复杂任务能力的智能体,不同于传统生成式AI仅提供结果,Agentic AI更像一个“数字员工”或“虚拟合伙人”,能够执行完整的工作流程。
03 全球采纳差异显著
世界银行的报告还揭示了一个严峻现实:全球生成式AI的采纳正沿着收入界线形成明显分层。
截至2025年4月,高收入国家24%的互联网用户使用ChatGPT,意味着每四个互联网用户中就有近一人是ChatGPT的活跃用户。
而这一比例在中高收入国家降至5.8%,中低收入国家为4.7%,低收入国家仅为0.7%。
高收入国家的渗透率是低收入国家的34倍,凸显出人工智能采纳方面的巨大鸿沟。
在采纳强度方面,2025年4月,高收入国家互联网用户平均每月访问生成式AI工具1.9次,而这一数字在中高收入国家降至0.5次,中低收入国家为0.4次,低收入国家仅为0.08次。
高收入国家的访问频率是低收入国家的近24倍。
回归分析证实,国家的人均GDP水平强烈预测了生成式AI的采纳增长,这表明经济发展水平是影响技术扩散的关键因素。
04 从感知到行动的技术跨越
“悟界·Emu3.5”代表的不仅是多模态能力,更是AI从感知智能向行动智能的跨越。
多模态融合加快推进,拓展智能交互边界,这正是中央广播电视总台等联合发布的《中国人工智能应用发展报告(2025)》中提出的六大趋势之一。
该报告还指出,AI Agent(智能体)迅速发展,以目标驱动替代指令响应;具身智能迈向深度情境理解与自主交互。
AI正在从“大脑”进化成具有“手眼身法步”的完整智能体。
Gartner分析师Haritha Khandabattu在技术成熟度曲线报告中指出,随着企业逐渐调整生成式AI在其AI战略中的核心地位,关注重点转向支持可持续AI实施的使能技术。
例如,AI工程作为规模化交付企业级AI解决方案的基础学科,可支持企业持续安全地开发并扩展高价值AI解决方案组合。
模型操作化(ModelOps)是另一项关键基础技术,预计将最终达到生产力成熟期。
该技术聚焦高级分析技术、AI及决策模型的端到端治理和生命周期管理,助力实现分析技术与AI/生成式AI项目的标准化、规模化和强化分析。
05 资本市场的狂热与理性
在资本市场,AI热潮仍在高歌猛进。英伟达首席执行官黄仁勋在10月28日华盛顿特区举行的全球技术大会(GTC 2025)上宣布了一系列全新的合作伙伴关系,并淡化对AI泡沫的担忧。
但同时,美股创纪录的涨势也暗藏风险。
微软的业绩提供了AI投资回报的直接证据。10月30日,微软发布2026财年第一财季业绩,披露对OpenAI的投资已经获得了大约10倍的回报。
在2026财年第一财季,由于对 OpenAI 的投资亏损,微软净利润减少了 31 亿美元。
日前,微软宣布与OpenAI签订最新的合作协议,同时宣布OpenAI 已签约购买价值 2500 亿美元的 Azure 服务。
并购市场同样活跃。10月31日,据知情人士透露,英特尔初步洽谈收购人工智能初创公司SambaNova Systems Inc.。这进一步表明大厂正通过收购弥补技术短板,抢占AI战略高地。
根据TrendForce集邦咨询最新AI服务器产业分析,2026年因来自云端服务业者、主权云的需求持续稳健,对GPU、ASIC拉货动能将有所提升,加上AI推理应用蓬勃发展,预计全球AI服务器出货量将年增20%以上,占整体服务器比重上升至17%。
---
未来三到五年,生成式AI将能像今天处理文本一样流畅地处理语音和视频。这意味着AI将能捕捉到人类交流中的微妙差异:CEO一声“不”与“嗯…不”在文字记录中别无二致,但在语音和视频中,AI能辨明其间的天差地别。
人工智能不再仅仅理解文字,开始捕捉语调的起伏、表情的变换和手势的微妙。技术正在融入人类交流的纹理,从感知智能迈向社会智能。
AI的竞争,已从参数战争转向了感知现实的全面较量。
来源:程序员讲故事聊生活
