智源“悟界”破茧,多模态AI竞争升维

B站影视 日本电影 2025-10-31 12:24 1

摘要:10月30日,北京举行的2025年世界科技与发展论坛上,33个国家的科技领袖们反复讨论着一个主题:“人工智能促进科技与发展”。就在同一天,中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。

人工智能的赛场边界正在消失,谁能在同一个模型中打通文字、图像与动作,谁就能掌握下一个时代的主动权。

10月30日,北京举行的2025年世界科技与发展论坛上,33个国家的科技领袖们反复讨论着一个主题:“人工智能促进科技与发展”。就在同一天,中国人工智能领域迎来一项重大突破——智源研究院发布了多模态世界大模型“悟界·Emu3.5”。

这不仅是又一个大型语言模型,而是以自回归方式实现了对多模态序列的“Next-State Prediction”(下一状态预测),获得了可泛化的世界建模能力。

当我们还在为聊天机器人写出的一句首诗惊叹时,AI的竞争已悄然升级。从单纯的文本理解到对视觉、动作乃至现实世界的全面感知,人工智能正从“语言天才”向“全能选手”跃迁。

---

01 模型竞争新态势

世界银行10月27日发布的《究竟是谁在使用生成式人工智能?》报告揭示了这一领域的激烈竞争态势。

在2025年4月访问量最高的五款工具中,有9个新晋工具进入了访问量前60名的行列。

DeepSeek、Grok等新兴平台表现突出,短时间内迅速崛起,已跻身全球前五。

曾经的王者ChatGPT依然以77%的市场份额保持领先,但与2023年的89%相比已明显下滑。AI领域“一家独大”的局面正在被打破,多元化竞争格局已经形成。

摩根斯坦利美国软件研究主管Keith Weiss在AlphaSummit 2025技术峰会上表达了类似观点:“历史上通常不会出现一个万能解决方案包揽一切。这就是为什么亚马逊不是零售的全部,也是为什么我们仍然有Wayfair。”

这种竞争格局下,专用工具与通用模型正在寻找各自的生存空间。

“我不认为我们会到达一个模型无所不能的境地。相反,这些模型将变得越来越聪明,最终就像你公司里最聪明的工程师,但只专注于某一项特定任务并且做得极其出色。”一位AI专家在9月份的Tegus专家访谈中如是说。

02 多模态成为突破口

在此背景下,“悟界·Emu3.5”的发布展示了中国在AI多模态融合方面的探索。

该模型不仅能实现跨场景的具身操作、具备泛化的动作规划与复杂交互能力,还能完成文图生成、图片编辑与时空变换。

这意味着AI开始从“感知”走向“行动”,从理解世界走向改变世界。

多模态能力正成为AI竞争的下一个焦点。Gartner在2025年人工智能技术成熟度曲线中指出,AI行业焦点正在转移:从生成式AI的炒作热潮到以责任为驱动的基础创新构建。

报告中,生成式AI已进入“泡沫破裂低谷期”,企业开始深入了解其潜力和局限性。

尽管2024年对生成式AI的平均投入高达190万美元,但仅不足30%的AI领导者表示其CEO对AI投资回报感到满意。

同时,麦肯锡《2025年技术趋势展望》报告则将代理型人工智能(Agentic AI)列为首次纳入重点观察的新趋势。

这类AI智能体本质是一类具备规划、执行复杂任务能力的智能体,不同于传统生成式AI仅提供结果,Agentic AI更像一个“数字员工”或“虚拟合伙人”,能够执行完整的工作流程。

03 全球采纳差异显著

世界银行的报告还揭示了一个严峻现实:全球生成式AI的采纳正沿着收入界线形成明显分层。

截至2025年4月,高收入国家24%的互联网用户使用ChatGPT,意味着每四个互联网用户中就有近一人是ChatGPT的活跃用户。

而这一比例在中高收入国家降至5.8%,中低收入国家为4.7%,低收入国家仅为0.7%。

高收入国家的渗透率是低收入国家的34倍,凸显出人工智能采纳方面的巨大鸿沟。

在采纳强度方面,2025年4月,高收入国家互联网用户平均每月访问生成式AI工具1.9次,而这一数字在中高收入国家降至0.5次,中低收入国家为0.4次,低收入国家仅为0.08次。

高收入国家的访问频率是低收入国家的近24倍。

回归分析证实,国家的人均GDP水平强烈预测了生成式AI的采纳增长,这表明经济发展水平是影响技术扩散的关键因素。

04 从感知到行动的技术跨越

“悟界·Emu3.5”代表的不仅是多模态能力,更是AI从感知智能向行动智能的跨越。

多模态融合加快推进,拓展智能交互边界,这正是中央广播电视总台等联合发布的《中国人工智能应用发展报告(2025)》中提出的六大趋势之一。

该报告还指出,AI Agent(智能体)迅速发展,以目标驱动替代指令响应;具身智能迈向深度情境理解与自主交互。

AI正在从“大脑”进化成具有“手眼身法步”的完整智能体。

Gartner分析师Haritha Khandabattu在技术成熟度曲线报告中指出,随着企业逐渐调整生成式AI在其AI战略中的核心地位,关注重点转向支持可持续AI实施的使能技术。

例如,AI工程作为规模化交付企业级AI解决方案的基础学科,可支持企业持续安全地开发并扩展高价值AI解决方案组合。

模型操作化(ModelOps)是另一项关键基础技术,预计将最终达到生产力成熟期。

该技术聚焦高级分析技术、AI及决策模型的端到端治理和生命周期管理,助力实现分析技术与AI/生成式AI项目的标准化、规模化和强化分析。

05 资本市场的狂热与理性

在资本市场,AI热潮仍在高歌猛进。英伟达首席执行官黄仁勋在10月28日华盛顿特区举行的全球技术大会(GTC 2025)上宣布了一系列全新的合作伙伴关系,并淡化对AI泡沫的担忧。

但同时,美股创纪录的涨势也暗藏风险。

微软的业绩提供了AI投资回报的直接证据。10月30日,微软发布2026财年第一财季业绩,披露对OpenAI的投资已经获得了大约10倍的回报。

在2026财年第一财季,由于对 OpenAI 的投资亏损,微软净利润减少了 31 亿美元。

日前,微软宣布与OpenAI签订最新的合作协议,同时宣布OpenAI 已签约购买价值 2500 亿美元的 Azure 服务。

并购市场同样活跃。10月31日,据知情人士透露,英特尔初步洽谈收购人工智能初创公司SambaNova Systems Inc.。这进一步表明大厂正通过收购弥补技术短板,抢占AI战略高地。

根据TrendForce集邦咨询最新AI服务器产业分析,2026年因来自云端服务业者、主权云的需求持续稳健,对GPU、ASIC拉货动能将有所提升,加上AI推理应用蓬勃发展,预计全球AI服务器出货量将年增20%以上,占整体服务器比重上升至17%。

---

未来三到五年,生成式AI将能像今天处理文本一样流畅地处理语音和视频。这意味着AI将能捕捉到人类交流中的微妙差异:CEO一声“不”与“嗯…不”在文字记录中别无二致,但在语音和视频中,AI能辨明其间的天差地别。

人工智能不再仅仅理解文字,开始捕捉语调的起伏、表情的变换和手势的微妙。技术正在融入人类交流的纹理,从感知智能迈向社会智能。

AI的竞争,已从参数战争转向了感知现实的全面较量。

来源:程序员讲故事聊生活

相关推荐