智源“悟界”破茧，多模态AI竞争升维

摘要：10月30日，北京举行的2025年世界科技与发展论坛上，33个国家的科技领袖们反复讨论着一个主题：“人工智能促进科技与发展”。就在同一天，中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。

人工智能的赛场边界正在消失，谁能在同一个模型中打通文字、图像与动作，谁就能掌握下一个时代的主动权。

10月30日，北京举行的2025年世界科技与发展论坛上，33个国家的科技领袖们反复讨论着一个主题：“人工智能促进科技与发展”。就在同一天，中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。

这不仅是又一个大型语言模型，而是以自回归方式实现了对多模态序列的“Next-State Prediction”（下一状态预测），获得了可泛化的世界建模能力。

当我们还在为聊天机器人写出的一句首诗惊叹时，AI的竞争已悄然升级。从单纯的文本理解到对视觉、动作乃至现实世界的全面感知，人工智能正从“语言天才”向“全能选手”跃迁。

---

01 模型竞争新态势

世界银行10月27日发布的《究竟是谁在使用生成式人工智能？》报告揭示了这一领域的激烈竞争态势。

在2025年4月访问量最高的五款工具中，有9个新晋工具进入了访问量前60名的行列。

DeepSeek、Grok等新兴平台表现突出，短时间内迅速崛起，已跻身全球前五。

曾经的王者ChatGPT依然以77%的市场份额保持领先，但与2023年的89%相比已明显下滑。AI领域“一家独大”的局面正在被打破，多元化竞争格局已经形成。

摩根斯坦利美国软件研究主管Keith Weiss在AlphaSummit 2025技术峰会上表达了类似观点：“历史上通常不会出现一个万能解决方案包揽一切。这就是为什么亚马逊不是零售的全部，也是为什么我们仍然有Wayfair。”

这种竞争格局下，专用工具与通用模型正在寻找各自的生存空间。

“我不认为我们会到达一个模型无所不能的境地。相反，这些模型将变得越来越聪明，最终就像你公司里最聪明的工程师，但只专注于某一项特定任务并且做得极其出色。”一位AI专家在9月份的Tegus专家访谈中如是说。

02 多模态成为突破口

在此背景下，“悟界·Emu3.5”的发布展示了中国在AI多模态融合方面的探索。

该模型不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力，还能完成文图生成、图片编辑与时空变换。

这意味着AI开始从“感知”走向“行动”，从理解世界走向改变世界。

多模态能力正成为AI竞争的下一个焦点。Gartner在2025年人工智能技术成熟度曲线中指出，AI行业焦点正在转移：从生成式AI的炒作热潮到以责任为驱动的基础创新构建。

报告中，生成式AI已进入“泡沫破裂低谷期”，企业开始深入了解其潜力和局限性。

尽管2024年对生成式AI的平均投入高达190万美元，但仅不足30%的AI领导者表示其CEO对AI投资回报感到满意。

同时，麦肯锡《2025年技术趋势展望》报告则将代理型人工智能（Agentic AI）列为首次纳入重点观察的新趋势。

这类AI智能体本质是一类具备规划、执行复杂任务能力的智能体，不同于传统生成式AI仅提供结果，Agentic AI更像一个“数字员工”或“虚拟合伙人”，能够执行完整的工作流程。

03 全球采纳差异显著

世界银行的报告还揭示了一个严峻现实：全球生成式AI的采纳正沿着收入界线形成明显分层。

截至2025年4月，高收入国家24%的互联网用户使用ChatGPT，意味着每四个互联网用户中就有近一人是ChatGPT的活跃用户。

而这一比例在中高收入国家降至5.8%，中低收入国家为4.7%，低收入国家仅为0.7%。

高收入国家的渗透率是低收入国家的34倍，凸显出人工智能采纳方面的巨大鸿沟。

在采纳强度方面，2025年4月，高收入国家互联网用户平均每月访问生成式AI工具1.9次，而这一数字在中高收入国家降至0.5次，中低收入国家为0.4次，低收入国家仅为0.08次。

高收入国家的访问频率是低收入国家的近24倍。

回归分析证实，国家的人均GDP水平强烈预测了生成式AI的采纳增长，这表明经济发展水平是影响技术扩散的关键因素。

04 从感知到行动的技术跨越

“悟界·Emu3.5”代表的不仅是多模态能力，更是AI从感知智能向行动智能的跨越。

多模态融合加快推进，拓展智能交互边界，这正是中央广播电视总台等联合发布的《中国人工智能应用发展报告（2025）》中提出的六大趋势之一。

该报告还指出，AI Agent（智能体）迅速发展，以目标驱动替代指令响应；具身智能迈向深度情境理解与自主交互。

AI正在从“大脑”进化成具有“手眼身法步”的完整智能体。

Gartner分析师Haritha Khandabattu在技术成熟度曲线报告中指出，随着企业逐渐调整生成式AI在其AI战略中的核心地位，关注重点转向支持可持续AI实施的使能技术。

例如，AI工程作为规模化交付企业级AI解决方案的基础学科，可支持企业持续安全地开发并扩展高价值AI解决方案组合。

模型操作化（ModelOps）是另一项关键基础技术，预计将最终达到生产力成熟期。

该技术聚焦高级分析技术、AI及决策模型的端到端治理和生命周期管理，助力实现分析技术与AI/生成式AI项目的标准化、规模化和强化分析。

05 资本市场的狂热与理性

在资本市场，AI热潮仍在高歌猛进。英伟达首席执行官黄仁勋在10月28日华盛顿特区举行的全球技术大会（GTC 2025）上宣布了一系列全新的合作伙伴关系，并淡化对AI泡沫的担忧。

但同时，美股创纪录的涨势也暗藏风险。

微软的业绩提供了AI投资回报的直接证据。10月30日，微软发布2026财年第一财季业绩，披露对OpenAI的投资已经获得了大约10倍的回报。

在2026财年第一财季，由于对 OpenAI 的投资亏损，微软净利润减少了 31 亿美元。

日前，微软宣布与OpenAI签订最新的合作协议，同时宣布OpenAI 已签约购买价值 2500 亿美元的 Azure 服务。

并购市场同样活跃。10月31日，据知情人士透露，英特尔初步洽谈收购人工智能初创公司SambaNova Systems Inc.。这进一步表明大厂正通过收购弥补技术短板，抢占AI战略高地。

根据TrendForce集邦咨询最新AI服务器产业分析，2026年因来自云端服务业者、主权云的需求持续稳健，对GPU、ASIC拉货动能将有所提升，加上AI推理应用蓬勃发展，预计全球AI服务器出货量将年增20%以上，占整体服务器比重上升至17%。

---

未来三到五年，生成式AI将能像今天处理文本一样流畅地处理语音和视频。这意味着AI将能捕捉到人类交流中的微妙差异：CEO一声“不”与“嗯…不”在文字记录中别无二致，但在语音和视频中，AI能辨明其间的天差地别。

人工智能不再仅仅理解文字，开始捕捉语调的起伏、表情的变换和手势的微妙。技术正在融入人类交流的纹理，从感知智能迈向社会智能。

AI的竞争，已从参数战争转向了感知现实的全面较量。

来源：程序员讲故事聊生活

标签：模型智能体模态微软竞争

本文地址：http://news.43b.com.cn/a/1750366.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐