摘要:王兴兴在外滩大会上的“AI荒漠论”,揭示了当前人工智能在物理世界执行任务时的根本性困境,这场从“认知智能”到“行动智能”的跨越远比想象中艰难。
王兴兴在外滩大会上的“AI荒漠论”,揭示了当前人工智能在物理世界执行任务时的根本性困境,这场从“认知智能”到“行动智能”的跨越远比想象中艰难。
2025年外滩大会上,宇树科技创始人王兴兴的一句“现在的AI大模型领域,在真正干活这方面还是荒漠”,像一颗冷水泼进沸腾的AI行业。他说,文字图像已繁花似锦,执行任务却荒芜如沙,“仅长了几根小草”。这句话,不是批评,更像预警。
王兴兴
我们正站在AI演进的关键分水岭。大语言模型如ChatGPT、Midjourney已证明它们理解与创造的能力,对话流畅、画作精美,甚至通过律师、医师考试。但一旦你让AI控制机器人送快递、调度工厂流水线、护理老人——它仍显得笨拙、迟缓、不可靠。王兴兴所指的“干活”,是物理世界的行动,是复杂环境的应变,是多任务协同的执行。而这,恰是AI目前最大的短板。
为什么会出现这种“头脑发达、四肢简单”的局面?
究其原因,AI的学习至今仍大量依赖静态数据集和虚拟环境。语言和图像数据易于获取、标注、训练,但物理动作涉及实时反馈、安全容错、非结构化环境——这些难以通过文本或图片学会。
就像教孩子读书 vs 教他骑车,后者必须经过反复摔倒、调整、再尝试。目前AI还缺一个“身体”去感受真实世界。
但这片“荒漠”正在被开拓。全球实验室与企业已展开行动。谷歌的RT-2模型尝试将视觉-语言-动作联合训练,特斯拉的Optimus人形机器人不断迭代运动控制,而宇树科技本身也在强化四足与双足机器人的自主任务能力。
当前AI发展呈现出明显的不平衡性。在文本生成、图像创作等虚拟领域,AI表现卓越,甚至能通过专业资格考试。然而一旦进入物理世界,AI就显得力不从心。
这种能力缺陷在制造业尤为明显。研究显示,AI大模型在制定简单黄铜零件的加工计划时,多数模型在视觉能力和物理推理技能方面表现不佳。它们常常错过明显特征或出现幻觉,忽略刚性和颤动问题,甚至提出物理上不可能的工装方案。
物理世界中的AGI需要具备四大能力:处理复杂的感官输入、预测行动效果、遵循物理约束、从交互中学习。而当前的大模型在这些方面都存在明显不足。
行业正从三路突破——采用多模态融合技术(视觉+语言+控制)、仿真到实物的迁移训练(Sim2Real)、以及强化学习与人类反馈协同优化。
英伟达推出了Cosmos-Reason1系列模型,尝试提升AI在物理常识和具身推理方面的表现。该模型采用仅解码器的大型语言模型架构,结合视觉编码器处理视频数据,实现文本和视觉数据的同步推理。
蘑菇车联发布了MogoMind物理世界AI大模型,深度整合实时、海量的多模态交通数据,形成对交通环境的全局感知、深度认知和实时推理决策能力。该模型仅用70亿参数规模,就实现了“厘米级感知、毫秒级响应”。
中科视语开发了PhysVLM模型,创新性地提出空间-物理约束映射(S-P Map)技术,将机械臂的几何参数、关节运动范围等物理约束转化为可学习的视觉语义表征。
目前,具身智能已初步完成“拿起指定物品”、“避开移动障碍”等简单任务。但从小草到绿洲,仍需五年甚至更久。
英伟达的Cosmos-Reason1在物理常识基准测试中表现优异,尤其是56B版本的效果全面超过Qwen2.5-VL-7B与72B、Gemini 2.0 Flash与GPT-4o。在具身推理上,显著强于其他VLM模型,效果提升超10%。
蘑菇车联的MogoMind大模型已经推出了多款L4级前装量产自动驾驶车辆,包括RoboBus、RoboSweeper和RoboTaxi,已在全国10个省份实现成功运营,安全行驶里程突破200万公里。
中科视语的PhysVLM在EQA-phys上的性能比GPT-4o高出14%,在RoboVQA-val和OpenEQA等基准测试中也超过了RoboMamba和SpatialVLM等先进的具身VLM。
科技巨头投入巨大,创业公司风险更高。失败项目多因硬件成本、数据匮乏、场景不明确。但每一步失败都在积累经验。
算力瓶颈对大模型实时性能的影响主要体现在几个关键方面:硬件资源限制导致推理速度无法满足实时需求;模型复杂度与算力需求呈指数级增长关系;分布式计算中的通信延迟进一步削弱实时性能。
在数据层面,获取高质量、大规模且符合特定场景需求的数据极为困难,标注成本高昂且数据合规性要求严格,导致模型在复杂场景下的泛化能力受限。
在这场攻坚战中,研究人员获得了宝贵的“战利品”:多个开源数据集(如Meta的Ego4D)、通用控制接口(如微软的AirSim)、以及新型处理器(专用于机器人并行计算)。
英伟达团队构建了包含6类工业机械臂、10万组操作场景的基准数据集,涵盖RGB图像—可达物理空间图(S-P Map)—具身物理问答三元组数据。配套开发的EQA-phys评估基准包含带有4类工业机械臂的仿真环境和问答数据。
蘑菇车联开发了“通感算一体化”设备(如AI数字道路基站、路侧系统等),能够实时获取物理世界实时动态数据。通过边缘+云端的协同处理,将数据在源头就进行融合处理,为理解世界提供更高精度和质量的数据。
中科视语开创的空间-物理约束映射(S-P Map)技术与各种VLM高度兼容,集成到GPT-4o-mini后,提升了7.1%的可达性理解任务性能。
这不是一场人类与AI的战争,而是人类与自身技术局限的对抗。王兴兴的发言之所以重要,是因为他撕开了幻想,指向未来——AI不应只会说,更应会做。
历史的回响:技术发展的道路从来都不是一帆风顺的。AI大模型正如工业革命时代的蒸汽机,虽然初期笨重低效,但经过不断改进和适配,终将驱动各行各业迈向智能化的新时代。这场AI革命不是一场闪电战,而是一场需要耐心与智慧的持久战。
正如一位斯坦福AI实验室负责人在其日记中所写:“真正的智能,必须能穿过房间,拿起一杯水,而不打碎它。”而我们现在,还停在“识别这是一杯水”的阶段。
参考文献
王兴兴,2025外滩大会发言实录
中科视语发布首个具身物理空间大模型PhysVLM,战略布局“AI+机器人”新生态,中国商报网,2025
京企首个物理世界AI大模型亮相,北京市科学技术委员会、中关村科技园区管理委员会,2025
70亿参数做到百毫秒推理延迟!蘑菇车联首发物理世界AI大模型,手机网易网,2025
2024AIAgent行业研究报告,CSDN,2025
前沿人工智能模型在基本物理任务上仍失败:一个制造案例研究,SegmentFault思否,2025
英伟达推出Cosmos-Reason1系列模型,让AI理解物理常识,腾讯新闻,2025
公开测评拿到性能最优,首个面向空间智能的世界模型在沪发布,上观新闻,2025
悠然无界大模型发布,突破数字世界与物理世界边界,上观新闻,2025
免责声明:本文内容基于公开资料与学术研究,仅供参考与学术交流,不构成任何投资或决策建议。
合法合规声明:本文符合国家相关法律法规,不涉及保密信息与不当言论。
史料授权:所引内容、发言实录均已来自公开渠道或经授权使用。
来源:世事传真
