摘要:翻开不少玩家的履历,会发现出身于图形学背景的不在少数。比如国外李飞飞的World Labs,又比如国内的群核科技,也就是酷家乐这个3D云设计平台背后的公司。
图形学的并行计算和边际计算,在模拟物理世界和机器人训练中起到了关键作用。
图形学模拟世界有天然优势。具身智能未来可能会出现新范式。
2024年被称为“具身智能元年”,这一新兴领域正吸引着越来越多资本、公司和学者进入。
翻开不少玩家的履历,会发现出身于图形学背景的不在少数。比如国外李飞飞的World Labs,又比如国内的群核科技,也就是酷家乐这个3D云设计平台背后的公司。
MEET 2025智能未来大会上,量子位邀请到群核科技的唐睿博士,探讨了从图形学到具身智能,从模拟世界到训练AI重构环境并进行智能交互、以及具身智能行业最新技术成果、发展现状和终极形态展望等一系列最热议话题。
唐睿博士是群核科技首席科学家、副总裁,KooLab实验室负责人,也是现任中国图学学会专业委员会委员,图形学与混合现实研讨会执行委员。
MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。
具身智能与AI的区别:具身智能不仅通过屏幕交互,还能与环境中的物理世界进行交互。它可能包含手、感官(如摄像头、嗅觉、触觉)以及行动能力。具身智能不一定需要人形,成熟的具身智能实现如自动驾驶汽车,并不要求具有人类的外形。并行计算降低了模拟人脑和物理世界的成本,边际计算在图形绘制和机器人训练中起到了关键作用。投身具身智能,图形学背景的公司和个人在模拟世界方面有先天优势。从内容创作的角度讲,Sora算是物理世界模拟器之一,但在具身智能领域,它还缺少对物理规律的理解和约束。当前具身智能的技术进展,四个核心器官的发展:“脑子”(决策系统)在知识面和理解能力上已超越人类。“眼睛”(传感器技术)极为先进,具备多种感知能力。“手脚”(运动能力)在灵活性和效率上远超人类。整体的协调性正在推动新技术和新数据产生方式的诞生。期望的具身智能终极形态:类似于自动驾驶汽车的延伸,具身智能最终可能成为了解用户并主动服务的管家机器人。以下是唐睿博士在MEET大会现场圆桌论坛的QA实录,为了完整体现他的思考,在不改变原意的基础上,量子位对问答部分进行了编辑整理,希望能给你带来更多启发。
唐睿:大家好,我是唐睿。我主要研究领域是计算机图形学、人工智能和具身智能,最早的时候在群核科技做酷家乐产品,做真实感绘制,属于图形学领域。
当我们的用户量、用户数据增加了以后,我发现设计师设计的场景非常逼真、非常接近真实,我就有了一个想法——这种逼真的场景,为什么我们自己不能用起来呢?
它也可以像自动驾驶那样,因为自动驾驶里面也sim-to-real,在仿真域里面做训练和学习,甚至还有驾驶技能验证,然后我就开始接触具身智能行业。
我觉得具身智能和AI最大的一个区别,是从芯片、显示器,内存、显存里面走出来,走到我们环境里面。
它不只是有一个脑子,仅仅通过屏幕和我们交互,还会有手、感官,比如说摄像头,甚至嗅觉、触觉能力,也有行动能力,能够和我们所处的外部物理世界交互。
虽然大家觉得具身智能上面写了一个“身”字,但我觉得可能不一定需要人形,它只要有相应的技能就可以,像特斯拉,或者自动驾驶的汽车,就是比较成熟且具象的具身智能的实现。
量子位:唐睿博士,虽然你们不是具身智能起家的,但是现在讨论具身智能绕不开你们,特别是李飞飞开始创业做空间智能之后,你们是被提及最多的一家中国的公司,你怎么看待这件事情?
唐睿:我其实最开始是做图形学的,我现在相当于是半只脚踏进具身智能,或者希望支撑具身智能。
我们最开始发现这个产业要素的变化的时候,可能会更早一些。从图形学角度出发,在深度学习或者说现在大家认知的人工智能出现之前,我觉得算力的迭代体系是指令级的优化,速率的优化体系,就是CPU的优化逻辑。
那会儿也有并行计算,但是并行计算应用的产业很单一,就是好莱坞的CG电影,再加上大家玩的单机或者是高画质的游戏,是最主要支持GPU并行计算的产业,这也是黄教主比较Struggling的时间段。
有了AI或者深度学习加成以后,算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向,这也导致并行计算的成本会降到很低很低,相对于以前的980或者说1080的时代,现在的并行计算的算力成本已经很低了。
我最开始是做图形的,但我博士期间接触过模式识别和以前的Rule-based的机器学习。我们觉得并行计算无非就是模拟两件事情,一直到现在也是,一个是模拟人脑,通过深度学习已有的知识,先验的知识去预测未来,或者预测不同的模态。
另外一种是光的仿真,比如说我们酷家乐在做的设计软件,是模拟光在物理世界中的一个传播,把还没有建好的房子画出来,然后给业主去看。
具身智能里面还有很多物理仿真,大家会用MuJoCo去做,比如物理碰撞、 交互仿真。所以边际计算就是在这两个领域里面去用的。
最早的时候我们做图形绘制,2015年、2016年的时候有一次去英国帝国理工大学,和我的师兄一起讨论。
原本机器人在现实世界里面获取到的结构化数据是有限的,而你们公司有数百万的设计师,每天都在产出数万甚至几十万的设计场景,而且非常逼真,为什么我们不把它拿过去给机器人做训练,除了人可以在这个场景里面看,机器人也可以在这个场景里面看。
△2018年,群核科技与帝国理工等科共同推出interiorNet数据集。这是当时全球最大的室内场景认知深度学习数据集。打一个比方,大家有没有想过,很多年前出现了AlphaGO,后面又出来了OpenAI Gym。AlphaGO能做的一件事情是什么,下围棋,OpenAI Gym后面能打星际争霸、打Dota。
下围棋、打星际、打Dota,这对于人来说是多么难的一件事情,有多少人下不好围棋,有多少人打不好星际争霸,但是机器能打好。
然而如果让机器去做洗碗叠被子,端茶倒水这些事情,会发现非常难。前段时间,美国的机器人公司发布了叠被子做家务的机器人,大家都为之欢呼,中间gap了大概有七八年。
核心的一个问题在于,下围棋、打星际、打Dota,都是在数字空间里面,我们人类能够给它提供训练或者去做决策,去做演练,去产生数据的系统。
我们在做的一件事情,是我们想做下一个OpenAI Gym或者AlphaGO,甚至3D界的ImageNet这样一个3D物理世界的构造器,能够让我们的具身智能,我们的机器人,能够在一个AI可交互世界里得到足够多的仿真训练,让整个行业的智能化,或者手眼脑的协调性的能力得到快速的迭代和升级。
量子位:有点像《黑客帝国》电影里面道场的概念,在虚拟的世界里面,很快地学会很高深的功夫。你们公司不是完全做具身智能的,你们怎么看具身?回顾去年,您觉得这个产业里最值得关注的进展是哪些事件?
唐睿:从一级市场角度来说,是很多投资人或者说很多钱进来了,但是从学术或者技术的视角来看,大家可以发现,很多原来做图形学,或者是做3D视觉的技术同行已经开始迈入具身智能这个行业里面。
包括李飞飞,以及她的前同事Leo Guibas,Leo Guibas是做Geometric和3D的非常鼻祖的斯坦福教授,还有ImageNet论文的作者苏昊,他自己也创办了Hillbot,其实很多人都进入到具身智能这个行业。
为什么我们这些图形学的人会来进入到这个行业,我刚才说的并行计算,无非是两件事情,是模拟世界或者模拟人脑,我们图形学的人可能会觉得在模拟世界这个事情上,我们有比较先天的优势。
量子位:最近这两天Sora新版本出现后引发了热烈讨论,Sora生成视频的模式,是不是解决数据或者是物理世界模拟器的核心打开方式?它是不是一个世界模型?我们能不能通过这个方式,抵达AGI Robots最终的道路。你们之前有做类似方向上的工作,你们是怎么看这个事情的。
唐睿:Sora昨天刚刚发布了新版本,Demo令人印象非常深刻。
我觉得Sora算是一种物理世界的模拟器。Sora现在的商业策略,应该是做内容、视频的创作。
昨天的新版本,我看到有灰尘、风吹草动,和水波纹的效果,人类看着已经非常真实了,或者说已经能欺骗一个图形学的人的眼睛了。如果往内容创作的角度去说,应该说是最接近于这个领域的物理世界模拟器。
但是从具身智能的角度来说,具身智能最终的落地会有本体和环境的交互,所以它对于物理的准确性要求远超过艺术创作,或视频内容创作的精度。
因此可能在内容创作角度它算是,但如果进入到具身智能或者说真正的仿真的领域,它还比较欠缺,精度需要继续提升,或者可以加入反馈学习再调整的模块。
量子位:如果具身智能把可以在家庭里服务的AI robots作为一个终点,像马斯克讲的擎天柱机器人做的事情,那我们现在处于什么阶段?
类比手机,智能手机已经发展到高度成熟的阶段,大致经历了功能机、小灵通、大哥大,那么今年具身智能处于什么样阶段?
唐睿:其实我在具身智能这个本体以及智能化研究里面,也只能算半个外行或者半个内行。
我期望的具身智能它未来终极形态可能是一个自动驾驶的延伸——不仅仅是一个助手,还是一个了解我的管家。
甚至具备主观能动性,或者换种说法,不用PUA它,它看到一些情况就能主动给你干活。
如果要精确定位我们现在处于什么阶段,我也不是特别专业。
我看到的情况是,如果把它类比人,手、眼、脚、脑子这样的四个核心的器官来看的话,我觉得脑子某种程度上已经超越人类了,它的决策系统可能在创造性上还和人类差那么一些,但至少从知识面,从他的理解能力,以及简单或者说低层次、低维度的推理能力上,应该是超越人类的。
眼睛不用说了,各种传感器,红外的也可以安装,可以实现千里眼。
脚的话,机器狗的行走能力,只要电池够用,我觉得是远超人类的,而且它不光有脚,还可以飞,比如像大疆无人机。
手的话,关节灵活性这块,我目前看到至少Phi的视频让我挺震撼的。
这4个器官,手眼脚的协调,用具身智能的术语讲,就是从感知到决策,再到整个行动一体化的体系。
我觉得可能会有一些新的范式出来,未来的具身机器人训练会像自动驾驶一样,朝着端到端的方式去开发,其中也会产生新的数据生产方式,系统性的支撑具身智能在技术上或者产业上快速的迭代。
来源:量子位一点号