专访群核科技黄晓煌:我们要做和Sora不同的“物理世界模拟器”

B站影视 2024-12-17 15:02 2

摘要:从年初OpenAI震撼发布的“世界模拟器”Sora,到年中黄仁勋预言AI的下一个浪潮将是“物理AI”,再到国内外大大小小的具身智能公司雨后春笋般成立,AI正在慢慢从虚拟世界走入物理世界。

“家居SaaS”是对群核科技最大的误解。

作者|赵健

2024年,让人工智能理解物理世界,正在成为AI产业界的新浪潮。

从年初OpenAI震撼发布的“世界模拟器”Sora,到年中黄仁勋预言AI的下一个浪潮将是“物理AI”,再到国内外大大小小的具身智能公司雨后春笋般成立,AI正在慢慢从虚拟世界走入物理世界。

但让AI走入物理世界,遇到的最大瓶颈之一就是数据。MIT发布的一项研究指出,高质量的数据可能会在2026年消耗殆尽。因此,行业基本都转向使用AI产生的合成数据训练模型,以期突破数据瓶颈。

能做合成数据的公司并不少,但能做包含真实物理规律的、大规模的高质量合成数据的公司,全世界范围内可能只有一家——位于杭州的「群核科技」。群核科技董事长黄晓煌笑言:“如果你知道还有第二家,麻烦请你告诉我。”

群核科技是谁?

这是一家成立了13年之久的科技公司,在软件行业有一款知名的产品——「酷家乐」。酷家乐在大家居设计软件领域有大约70%~80%的渗透率,用遥遥领先形容并不为过。然而,在大家居行业的成功却让很多人误以为酷家乐就是群核科技的全部。

黄晓煌说,如果用家居SaaS来形容群核科技,是对群核科技最大的误解。

2020年,群核科技发布四大战略:“从家居到全空间,从设计到全链路,从工具到全生态,从中国到全世界”,至今未变。

围绕这一战略,群核科技已经形成多款产品矩阵:空间设计与可视化平台「酷家乐」,酷家乐的海外版本「COOHOM」,专注于BIM(建筑信息模型)解决方案的「酷空间」,以及最新发布的提供合成数据服务的「群核空间智能平台」。

11月20日,群核科技首次对外公开了其两大技术引擎:群核启真(渲染)引擎和群核矩阵(CAD)引擎。

群核科技业务线看上去复杂多元,如何理解这些业务线背后的内在逻辑?其实就是技术驱动。这条技术主线有两条:一是基于GPU集群的高性能计算,群核科技有一万台GPU服务器为其各条产品线做算力支撑;二是物理正确的认知与数据平台,群核科技将其定位为“物理世界模拟器”。

可以说,这两条技术主线就是群核科技的锤子,在此之上所有的产品、行业解决方案,都是业务飞轮效应下找到的钉子。

本文,「甲子光年」对话黄晓煌,来拆解非典型的科技创业公司群核科技,是如何拿着一个锤子找到了满世界的钉子。

1.家居SaaS是对群核科技最大的误解

甲子光年:群核科技成立于2011年,已经走过了13年之久。先介绍下群核科技的发展历程?

黄晓煌:我本科在浙江大学竺可桢学院读完之后,拿了英伟达的全额奖学金去美国伊利诺伊大学香槟分校(UIUC)读计算机博士,当时选择的研究方向是用GPU做高性能计算。毕业之后我加入英伟达,给GPU芯片开发并行计算的编程框架以及CUDA的开发,后来回国之后与另外两位联创创立了群核科技。

那时候GPU基本都是在本地运行,我们最初的想法是把GPU放在到云端,以支持需要高性能计算的应用,比如渲染。我们采用的GPU架构叫Many core processor——多核心处理器,也是公司名字“群核”的来源。

当时渲染基本都是用在游戏或者类似游戏的艺术场景,我们创业之初的第一个idea是利用GPU来实现“物理正确”的渲染引擎——就是要求渲染出的图与真实的物理世界一模一样的视觉效果,当时参考了一本书叫《Physicallly-Based Rendering》。当时做物理正确的渲染最主要的问题是慢,而我们正好通过自建的GPU集群来加速这个渲染过程,将原本需要几十分钟才能渲染出一张图的速度提升至仅需十秒。

后来我们发现只卖一个渲染的云服务是很难生存的,所以我们做了酷家乐这个产品,就是为渲染引擎做了一个软件框架,让用户能够直接在网页上传三维模型,直接快速渲染出图。酷家乐的产品发布后,在大家居行业一炮而红,吸引来了大量的设计师。我们就沿着这条路一直做下去了。

甲子光年:你和两位联创都是研究高性能计算方向,为什么创业选择从家装这样一个传统场景切入?

黄晓煌:其实不是特意进入的,创业之前我自己一套房子都没有,没有碰过装修,不知道装修是什么东西。

我们是先做出了云端GPU的快速渲染能力,然后拿着这个锤子到处找钉子。当时尝试了好多行业,包括机器人、家居、电影等等,只不过家装行业反响最好,更愿意为此买单。而且当时中国的家装行业正处在爆发期,所以我们就先选择做好这个场景。

从技术层面看,当时的GPU渲染技术更适用于无机物(比如桌子、玻璃等)场景的渲染,还无法实现对人、风景等复杂有机物的逼真渲染,而家居场景恰恰是无机物为主。当然走到今天我们已经不再是一个家居公司了,这也跟技术的发展有关,AIGC的兴起让传统渲染不止能做无机物,还能模拟复杂的有机物,因此我们现在也在广告营销、电商棚拍等场景落地。

甲子光年:因为酷家乐这款产品一炮而红,很多人也把群核科技当作家装SaaS公司。群核科技后来是怎么发展出更多产品的?

黄晓煌:我们最开始是从家装设计切入的,后来自然而然延伸到了大家居行业。在2017、2018年我们提出了“从家装到家居”的战略,从只做装修公司,到开始做大家居行业,大家居行业涵盖卖家具、全屋定制,电器等等领域。

从大家居行业做深之后,我们发现纯做效果图还是太浅了。当时正好国内在推“中国制造2025”的概念,我们就想既然用户已经在酷家乐上设计好了,能否直接拿着设计图去生产。于是,我们花了好多精力去研究怎么把一套设计的效果图变成机器能够理解的语言,比如用CAD的AI功能自动读图纸来替代传统的人工从零到一的设计,然后把它生产制造出来。

装修行业主要是设计师、营销部门在用,生产制造更多的是制造业跟工厂在使用。后来我们推出了一个新的战略,即“从家居到全空间”,包括公装、小型建筑设计、连锁商业、文博展览、广告设计等全场景渗透,从设计到生产制造环节全链路覆盖。

所以说,酷家乐只是群核科技的起点,后来又做了酷家乐的海外版COOHOM、酷空间、群核空间智能数据平台等好几款产品。如果用家居SaaS来概括群核科技,那是对群核科技最大的误解。

甲子光年:海外版COOHOM做的怎么样?

黄晓煌:海外版主要针对美国、韩国、东南亚这几个市场,全球落地了200多个国家和地区。比如韩国最大的家具制造商Hanssem(汉森),以及美国的几家头部科技公司都是我们的客户,东南亚也签了大量的线上用户与线下客户。

今年,COOHOM注册用户数突破了1000万,而且也获得了全球最大的软件测评网站G2的认可,在渲染可用性指标上击败所有其他渲染引擎,成为全球第一。

甲子光年:今天,群核科技会去对标谁?

黄晓煌:如果是在数字化的软件与解决方案方面,对标的主要还是Adobe、Autodesk这样的公司,但我们的产品形态、交互形态可能都不太一样。而且现在又有了合成数据服务。从技术底层来看,“GPU算力集群+物理世界模拟器”这两个标签加成似乎很难找到合适的对标对象,要是大家找到了,非常欢迎告诉我们。

甲子光年:群核科技是典型的“拿着锤子找钉子”的路径跑出来的,但有一种观点认为,“拿着锤子找钉子”是行不通的。你怎么看这种路线?

黄晓煌:“拿着锤子找钉子”行不通,只是VC(风险投资)觉得行不通,但对于创业者来说是行得通的,我甚至认为这是唯一成功的路径。创业不可能今天做AI,明天跨境电商火就做跨境电商,后天生物科学火就去做生物科学,这不靠谱。

英伟达实际上也是拿着GPU这把锤子到处找钉子。我十几年前在英伟达工作的时候,英伟达还是一家不太起眼的小公司。当时在硅谷聚会,女生一听说你来自英伟达,礼貌性打个招呼就走。

我们刚开始出来创业做基于GPU的高性能应用,很多VC都说GPU根本不靠谱,都快被淘汰了,未来是移动互联网时代,是Arm时代,你别搞GPU应用了,也不投我们。所以说,不同的角色视角是不一样的。

2.群核科技的底色是一家科技公司

甲子光年:群核科技在2015年成立Koolab,在2021年成立前沿技术研究院,2023年还成立了AIGC实验室。为什么群核科技如此重视前沿技术的研究?

黄晓煌:群核的底色还是一家科技公司,我们不是在做那种Copy to China 的产品,直接模仿就行,而是用新的产品替代传统的软件产品,是一个从0到1的过程,需要做很多探索的工作。我们在创业的时候确实发现了很多解决不了的技术问题,需要不断地研究跟摸索,所以我们当时就想招一些博士生专门来解决这些问题,就开始了research lab的探索。

长期来看,对前沿技术的投入确实很大程度上增强了公司的产品的竞争力,我们最近发布的群核空间智能平台、多模态CAD大模型等都是来自research lab的探索,但这些东西都是做了四五年之后才慢慢变成熟的。另一方面是我们通过做research也吸引了很多优秀的学生来实习、一起发论文,也吸引了很多优秀的人才加入我们公司的团队。

甲子光年:做前沿技术的投入会考虑ROI吗?

黄晓煌:很难考量ROI,一开始完全出于兴趣,也没有具体的财务诉求。比如联合帝国理工等发布的InteriorNet论文,一开始只是觉得合成数据的训练方法对于产业界很有价值。如果我们的工程师发现某个东西有价值,但好像又无法变现,做成产品又没有什么意义,那我们就鼓励发论文。

甲子光年:群核科技首次公开了两大技术引擎,分别是做什么的?

黄晓煌:它们就像是链接物理世界和数字世界的桥梁。

启真(渲染)引擎是群核自研的端云一体光线追踪引擎,能够帮助用户将想象力映射在物理空间中,并保证其物理正确性,实现“所想即所见”。

群核矩阵引擎则支撑了酷家乐等产品场景中“所见即所得”的部分,一方面通过多模态CAD大模型对物理世界中的多模态空间信息进行认知理解,并将之转化为物理空间方案。另一方面,在物理空间方案基础上,通过几何参数引擎、BIM引擎最终对接回物理世界的生产施工环节。

甲子光年:启真渲染引擎是群核科技成立以来就做的事情,一做做了十几年。这件事的壁垒是什么?

黄晓煌:我们也是随着产业界的发展而不断发展,比如刚创业时,学界论文的重点突破是如何通过GPU的并行计算来优化物理正确的渲染器;2022年开始AIGC出现后,大家研究的是如何让AI与渲染结合,让渲染效果更快、更真实。

自2012年以来,启真引擎历经了4次版本迭代,这次新推的启真3.5在渲染速度、逼真度、通用性和智能化层面都实现了大幅提升。不仅实现云端实时渲染,更达成对物理世界的写实级渲染。

甲子光年:AIGC的出现,给两个引擎带来的升级分别是什么?

黄晓煌:首先AIGC对渲染的影响非常大。原先学术界实现的物理正确的渲染引擎,其算法只能描述无机物的表面特征,比如石头、玻璃。但有机物的表面特征,比如动植物、人类,是很难描述清楚的。所以,过去的渲染主要集中在没有有机物的室内场景。

AI可以对画面光影、色彩等元素进行真实感增强,包括人物、动植物等一直是渲染难点的有机生命体也实现了画质提升。这在很大程度上解决了传统渲染器无法描述很多物理特性的问题。所以我们现在既能模拟物理世界的无机物,也能模拟有机物,可以渲染真实物理世界99%的材质,覆盖3C数码、家用电器、家居软装、户外等多个领域的渲染需求,然后我们拓展应用到了电商、广告等更多场景。

CAD识别技术也在AIGC的加持下,实现了从二维图纸到三维模型的智能转换。过去AI在对2D设计图纸进行阅读时,缺少空间想象力,这是人所独有的,多模态CAD识别引擎对物理世界产生的、或存在的设计数据进行了翻译、兼容和数据流转,用AI把各类设计数据识别成符合物理真实的参数化数据,再通过BIM引擎回到物理世界进行落地。它同时打破了原先设计领域BIM、几何参数化、3D等多套引擎的数据孤岛,让AI辅助数实转化和数实融合。

比如在一个在商业空间的设计落地过程中应用中,设计师只需导入CAD图纸,系统便能自动识别并生成含参数化的空间方案,精准呈现布局和家具尺寸, 无缝衔接落地施工。同时,通过AI识别,CAD图块可以直接转换为成物理正确的模型,支持与生产、施工环节的对接。

3.做物理世界模拟器

甲子光年:今年AI行业的一个重要变化就是越来越关注物理世界,比如李飞飞提出的空间智能。为什么AI圈子开始关注物理世界了?

黄晓煌:我在UIUC读博士时,专业是用GPU来做高性能计算。我的导师给我的课题是:当未来算力提升1000倍,你要研究的方向是什么?当时就做了两个,一是模拟人脑的运行,二是模拟物理世界的运行。我选择的是后者。

这几年随着深度神经网络的发展,用机器模拟人脑已经获得了巨大突破,标志性事件就是ChatGPT的诞生。但我们也意识到,我们发展AI本来是希望AI能替代人类打扫卫生、做家务,现在却是人类在打扫卫生、做家务,而AI在写诗作画。所以,让AI从虚拟世界走入物理世界,去帮人类执行物理世界的任务,是技术发展的必经之路。只是现在这个桥梁怎么建设,还需要比如具身智能行业的进一步探索。

甲子光年:群核科技为什么选择了模拟物理世界?

黄晓煌:群核最早是想做一个高性能计算公司,切入点就是用高性能计算的GPU做物理正确的渲染模拟。后来,为了做工业4.0我们做了物理正确的矩阵引擎,用来做柔性生产,包括生产线的AI检测。

有了这个基础之后,我们就可以通过AI连接整个物理世界,包括现在所有的设备。AI通往物理世界的桥梁肯定不是ChatGPT,而是把物理世界映射到数字世界,因为机器人的大脑实际就是数字组成的世界,但触觉是物理世界。

我们基于先前的积累,是最具备这个条件帮大家解决问题的,比如矩阵引擎就是把数字世界体现地跟物理世界一模一样。因此,我们把自己定义为“物理世界模拟器”。

甲子光年:Sora将自己定义为“世界模拟器”,但会生成一些“物理错误”的视频。你们强调物理正确,跟Sora的区别是什么?

黄晓煌:Sora之类的产品对于物理世界的理解是“训练”出来的,即通过大量的视频输入,模型根据前面几帧去猜测后面的几帧,终究还是猜测出来的。但真实的物理世界非常严谨,比如宇宙是怎么运行的,没有任何的随机性。我们的用户群体更多是在产业界做非常严肃的产品,所以我们非常强调物理正确。

举个例子,你想渲染出一张桌子的三维模型图,渲染引擎会对这个需求进行解构,所解构的元素就是物理正确的元素,比如材质、空间大小、环境、光线,然后根据这些元素渲染出相应的效果。

用AI训练出来的模型很难找到物理规律。此外,还需要有大量的物理标签,比如同样两扇门,塑料材质与金属材质的特质就完全不一样,没有这些信息就没办法准确地表达。所以我们强调物理正确,就是包含了物理世界所需要的所有物理参数的信息,这件事已经积累了十几年。

甲子光年:在物理世界模拟器的基础上,群核空间智能平台是怎么诞生的?

黄晓煌:我们从第一天起就意识到了数据的价值,最早是用我们积累的数据训练AI模型来做工业设计场景的AI检测,因为生产制造过程中经常遇到设计错误,AI检测可以节省90%以上的人工检测的时间。

我记得很多年前李飞飞发了ImageNet,但这些都是静态、不可互动的数据,我们觉得不可交互的数据能力有限。

2018年,我们跟英国帝国理工大学、美国南加州大学、浙江大学等高校联手推出InteriorNet数据集,为室内环境理解、3D重构、机器人交互等研究提供数据基础。这篇论文在学术界轰动一时,大家意识到到,原来空间智能的训练还可以这么做。

甲子光年:论文发布之后,业内有什么反馈?

黄晓煌:论文发布之后不久,我们收到了一封漂洋过海的来自硅谷某科技巨头的邮件,提出想跟我们就合成数据合作,当时我们还以为是骗子,因为很难想象硅谷巨头会主动给一家名不见经传的中国小公司发邮件。但后来,你能想到的所有硅谷大厂都陆续给我们发了邮件。我们这才反应过来这应该不是诈骗。

这时我们意识到,合成数据的机会来了。后来我们便做了一个体系化的产品Coohom Cloud,就是今天的群核空间智能平台的前身。后来,国内开始有机器人、具身智能等企业找到我们合作。

甲子光年:这个数据集为什么引起了轰动?

黄晓煌:这个数据集是物理正确的合成数据。当时通过合成数据做机器人训练已经在学术界验证过了,可以达到与真实世界95%的正确率。而当他们在寻找这方面数据时,在全世界范围内就找到了我们一家,说明这样的数据在全球范围都很稀缺。

最近李飞飞发布一篇“数字表亲”的文章,就是说如果用与真实物理环境一模一样的,即物理正确的虚拟场景去训练机器人的话,可能会达到与真实场景训练99%的效果。

而且在现实世界中训练机器人,成本高昂、难以扩展;相比之下,模拟数据是一种性价比更高且潜在无限的训练数据来源。

甲子光年:国内第一个合成数据的客户是谁?

黄晓煌:是一家扫地机器人企业。在疫情之前,扫地机器人的算法训练可以在真实空间场景进行,但疫情期间就难做这类实验了,甚至员工都没办法到公司上班,这时候虚拟空间的实验就成了救命稻草。

可以分享一个令我意外的场景:早期扫地机器人是通过碰撞来转向,最怕碰到的极端场景是家里宠物的粪便,因为扫地机器人的激光雷达不会识别宠物粪便,碰到之后也不会停下来,会把家里拖的到处都是。

扫地机器人公司想用摄像头替换激光雷达来识别宠物粪便,但几乎不可能找到一个充满猫屎狗屎的真实场景做实验,只好找到我们通过合成数据来训练为这个项目。做合成数据的设计师为此研究了好几天猫屎狗屎,你现在可以在我们平台上搜到不同类型的宠物粪便哈哈。我记得之前还有个设计师在微博吐槽说,猫屎有必要做得这么逼真吗......

甲子光年:合成数据是否永远无法达到100%真实数据的效果?

黄晓煌:理论上真实数据量足够大,肯定比合成数据的效果好。但真实数据、真实场景的成本太高了。在成本有限的前提下,100万个虚拟场景训练出来的效果,可能会比1万个真实场景的效果更好。所以实际上,大家都是先在虚拟场景里训练,然后再到真实场景里优化。

甲子光年:要想做合成数据,需要具备哪些能力?

黄晓煌:首先,群核科技在过去积累了海量的物理正确的空间数据,具备了空间认知的能力。其次,有了这些数据才能训练一个合成数据的模型,让一个空间能变成四个空间、八个空间,同时还要具备编辑器的能力,以针对特定场景做修改。

甲子光年:群核的数据服务让我想到了Scale AI,群核跟Scale AI算是竞品吗?

黄晓煌:我们跟Scale AI服务的是类似的客户,但原理完全不一样。Scale AI提供的主要是真实数据的数据标注服务,我们是做合成数据,我们的成本更低,性价比更高。合成数据这件事,没有工具集与长时间的积累,是做不了的。不同的客户对于数据标注与合成数据的需求侧重点也不太一样。

4.AI时代的商业模式是“Agent as a Service”

甲子光年:你如何看待这一波大模型、AIGC浪潮的前景?这是一次新的生产力革命吗?

黄晓煌:我们从2015年开始把AI引入生产制造,确实看到了AI在解放生产力上的巨大威力。过去AI替代人类做重复性的体力劳动,现在AI将会替代人类做重复性的脑力劳动。就像图纸的审核,原先是很无聊的工作,在办公室里成天看图纸,脑子都要炸了。现在我们实现AI审核图纸,达到90%以上的正确率,只是最后10%需要人工介入一下。

甲子光年:现在大家有时会有一种疑问,觉得AIGC发展两年了,似乎对于生产力的改变有限。你会有类似的感觉吗?

黄晓煌:其实在我们的产品里,AIGC早就集成进去了,每年有几十万、上百万的人才使用。只是说,我们的产品形态跟一些AIGC的产品形态,比如文生图的Midjourney,完全不一样。在中国如果做得那么薄,很难落地,很难做成商业级的产品。

甲子光年:为什么难落地?跟过去的软件产品有什么不同?

黄晓煌:过去我们做软件,壁垒都是规模,工程规模。因为写软件的工程书本来就不多,工作量大了之后投入就很大,如果别人做一个类似的产品也无利可图,他就不做了。这是原来软件产品的商业壁垒。

但今天技术发生了变化,一些简单的代码都能用AI生成,一些相对简单的系统纯靠工作量已经无法形成壁垒,所以就会有一些公司被颠覆掉。还有一些工作流也会被AI取代掉,比如客服、报销,甚至一些HR流程。

甲子光年:你会担心群核科技被新的AI、大模型技术颠覆掉吗?

黄晓煌:我觉得不会。群核科技不是一家很侧重算法的公司,更多还是算力的优化,以及后面发展出来的物理正确的数据积累。所以,如果从AI三要素——算法、算力与数据来看,群核科技更侧重算力与数据。我们其实也很乐意看到大模型公司层出不穷,有一些我们会用他们的产品,有一些也是我们的客户。大家的生态位不一样,是互相成就。

甲子光年:云计算时代是Software as a Service,AI时代是Model as a Service,这种变化会带来什么?

黄晓煌:我对Model as a service还是比较质疑的,我更推崇的是Agent as a Service。商业模式也在发生变化,比如过去是按坐席(人头)收费,现在是按工作量或者算力付费。现在很多工作是AI来完成,如果还按坐席收费,人越来越少不是把自己给革命掉了嘛。

我们两年前就发现了这一趋势。比如AI审核一开始是按用户数量收费,当给客户提效10%、20%的时候,客户很高兴,买了很多账号。但是当AI提效到90%的时候,我们突然发现用户没了,客户付费反而越来越少了。

后来我们反应过来,SaaS只适用于给人小幅提效的模式,当AI大幅提效甚至替代人工的时候,SaaS的模式就有缺陷。因此,当今天能够接近替代人工的AI Agent出现,就需要有新的商业模式。今天的Runway、OpenAI,都是按算力付费的模式。我们也在向这个方向转型,就是按工作量付费,否则越提效优化的反而是自己。

甲子光年:你期待群核科技能做到多大的规模?

黄晓煌:当然是越大越好了,比如1000亿美元以上的世界级Top科技公司,哈哈。

(封面图由AI生成)

来源:甲子光年

相关推荐