摘要:3月29日下午,北京智源人工智能研究院(以下简称“智源研究院”)院长王仲远在未来人工智能先锋论坛上作了《具身智能技术演进与生态共建》的演讲。
3月27日,2025中关村论坛年会在京开幕,论坛将持续至3月31日。今年论坛年会的主题是“新质生产力与全球科技合作”。
3月29日下午,北京智源人工智能研究院(以下简称“智源研究院”)院长王仲远在未来人工智能先锋论坛上作了《具身智能技术演进与生态共建》的演讲。
在该场论坛上,智源研究院发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能。
论坛开始前,王仲远接受了《每日经济新闻》(以下简称NBD)记者采访。
智源研究院是在科技部和北京市支持下,联合北京人工智能领域优势单位共建的人工智能领域的新型研发机构。王仲远是第二任院长,他在2018年荣获“《麻省理工科技评论》35岁以下科技创新35人”;并有微软、Facebook(现Meta)、美团、快手的工作经历。
NBD:随着DeepSeek的突破,是不是意味着算力对大模型来说已经不是一个问题了?
王仲远:我不太认同这个观点。DeepSeek确实取得了出色成果,确保我们能在有限的算力之下训练出与ChatGPT-4相当的大模型。然而,我们要意识到,这样的技术也可能被国际上其他机构和国家使用,从而推动大模型向更大规模的方向发展。
如今,由于工程上的优化,训练更大规模参数的模型成为可能。这时候如果Scaling Law(规模定律,即模型规模越大,其智能水平就越高)还有效的话,模型的性能就有可能进一步提升。
所以,现在的模型,尤其是基础模型看起来遇到了一定的瓶颈,或者说其性能提升相对缓慢,一个很重要的因素是数据(不足),另外算力限制也是瓶颈,所以我不认为现在的算力就足够使用了,我认为整个大模型的技术还远未到尽头,算力仍不可或缺。
今年在人工智能应用上会出现大爆发NBD:业内都说今年是人工智能普惠发展的转折点,您怎么看?您认同这个观点吗?
王仲远:对,首先,我认为今年在人工智能的应用上会出现大爆发。因为国产模型能够用较小的算力实现相当的性能,所以一定会进入应用落地阶段。
中国拥有海量的应用场景和应用需求,这是我们的优势。当基础模型能力提升后,其实我们有众多的产品经理和创业者,可以将模型进行落地应用,尤其是大语言模型的落地应用,存在巨大的产业爆发潜力。
当然,我也反复强调过,大语言模型是远远不够的。即使不谈机器人,我们也可以看到,真实的产业中存在大量多模态数据,比如流程图、医疗领域的X光片数据、CT数据以及各行业的传感器数据等,它们都不是简单的文本数据。所以,多模态大模型是绕不开的一种能力。
现在的多模态大模型,尤其是多模态理解模型,应该说还处于相对早期的阶段,虽然有一些解决方案,比如以大语言模型为核心的解决方案。但很多大语言模型在增加了多模态能力后,其原有的语言能力会有所退化。这也是智源研究院去年着重向统一原生多模态方向突破的重要原因。
去年,智源研究院正式发布Emu3,这是统一原生的多模态大模型,能够将文本、图像、视频从一开始就进行原生的统一,将理解和生成进行统一。我们认为,这种统一的多模态大模型有望助力大模型在各行业落地,取得更好的效果。
具身智能是实现AGI的一个核心能力NBD:您觉得我们距离实现AGI(通用人工智能)还有多久?还需要解决哪些问题?
王仲远:很坦诚地讲,目前AGI还没有非常明确的定义和广泛的共识。如果仅就文字能力的AGI来看,其实某种程度上已经达到了AGI。如果以图灵测试为判断以往人工智能是否实现AGI的标准的话,至少在文字层面,人工智能很可能已经达到了AGI。
如今的大语言模型除了其通用性以外,在很多特定领域,比如数学、编程等,已能接近硕士乃至博士水平。从这些方面来看,我们可以认为人工智能已经部分达到了某种程度的AGI。
但如果从更广泛的意义来看,比如让人工智能理解人类的语言、解决实际生活中的具体问题,像做家务、做饭、洗碗等,距离实现这种程度的AGI,我认为还有很长距离,可能还要很多年,至少5到10年甚至更长时间。因为在这个过程中,它依赖于本体的能力,依赖于对世界模型构建的进展,依赖于不同的落地场景中数据的积累等,所以还需要经历很长的周期。
NBD:具身智能的物理交互是不是会成为AGI的一个核心能力?
王仲远:它肯定是我们理解的广泛意义上的AGI核心能力,最终人工智能要从数字世界走向物理世界,就一定要跟真实的世界进行交互,并且在交互中学习。
每日经济新闻
如需转载请与《每日经济新闻》报社联系。
来源:每日经济新闻