摘要:「世界模型」,这是一个近几年突然火起来的 buzzword。从 Yann LeCun 的频繁喊话,到李飞飞投身创业,再到 24 年年初的 Sora 和年底的 Genie 2,以及刚刚发布的 Genie 3,定位世界模型的 AI 切入了与语言模型不同的赛道。
8 月初,Google DeepMind 发布 Genie 3,抢走了 OpenAI 好不容易开源俩模型的头条。
「世界模型」,这是一个近几年突然火起来的 buzzword。从 Yann LeCun 的频繁喊话,到李飞飞投身创业,再到 24 年年初的 Sora 和年底的 Genie 2,以及刚刚发布的 Genie 3,定位世界模型的 AI 切入了与语言模型不同的赛道。
他们主要分为两种流派。
第一种,Sora 类的视频模型,包括 Genie 3,基于 2D 的图像序列做数字世界的模拟,是对物理世界很好的可视化仿真。
第二种,李飞飞 World Labs 宣称要做的大型世界模型,以及各类基于 3D 的世界模型,和视频模型最重要的区别在于,它的基础是 3D 场景还原。
这两类模型现阶段都有很好的 demo 呈现效果,但如果要落地到具体场景,还是会存在很多问题和困难。
最重要的一个问题:视频模型的空间一致性。视频模型本质是基于图像去表达这个世界,但世界是 3D 的,缺少一个维度导致它无法保持完整的空间一致性,场景的内容会动态变化。
而 3D 模型会出现的问题是,如果用户要创作一个空间,ta 需要把每一个角度的每一个内容都创作出来,然后拼在一起。因为数据的短缺,空间内容的创作很难保证每个视角都有合理的内容,所以就导致现在一些 3D 空间模型只有固定一些角度看起来是合理的,一旦切换角度就会有崩坏的情况。
2025 年 8 月 25 日,群核科技在杭州举办的首届 TechDay 上,为这一难题带来了解决方案。大会上,群核科技发布了业界首个专注于 3D 室内场景认知与生成的空间大模型,并将开源两大核心子模型:空间语言模型 SpatialLM 1.5 和空间生成模型 SpatialGen。
图: 群核科技联合创始人兼董事长,黄晓煌
这两款模型,尤其是 SpatialGen,首次基于多视角扩散 +3DGS 重建技术,从源头解决空间一致性问题——它不是单纯生成视频,而是生成一个可自由漫游的真实 3D 空间(也支持生成漫游视频),支持任意视角切换、路径漫游,光照、纹理、遮挡关系全程物理一致。或许,困扰行业许久的空间穿帮问题将要被彻底解决。目前 SpatialGen 已在开源平台上线。
高一致性交互要做到的,不是简单的时长延长,而是用户能在里面做更复杂的事。
群核科技选择从源头构建「真实的 3D 空间」,重新定义了「空间大模型」的价值:它不是泛化的「世界模拟器」,而是聚焦「三维空间本身」的智能工具。
SpatialLM 1.5 是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统 SpatialLM-Chat 进行可交互场景的端到端生成。
相比于传统大语言模型对物理世界几何与空间关系的理解局限,SpatialLM 1.5 不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。例如,当用户输入简单文本描述时,SpatialLM 1.5 可自动生成结构化场景脚本,智能匹配家具模型并完成布局,并支持后续通过自然语言进行问答或编辑。
因为它生成的是结构化可交互 3D 场景,它能很好地用于机器人训练场景中。
比如机器人领域,家庭环境中机器人要实现自主行动首先得「看懂」空间,知道卧室是哪扇门、客厅茶几的位置、厨房的路线怎么走。机器人要看的不是 2D 图片,而是带物理参数和空间关系的 3D 数据。这便是群核 SpatialLM 模型的强项 ,能自动批量生成标清物体坐标、动线和物理属性的结构化信息。
新增的 SpatialLM-Chat 功能,打破了「3D 操作需专业技术」的门槛。用户只需输入一段日常语言指令,就能生成可交互的 3D 场景。比如输入「生成 1000 个有宠物的家庭环境,每个场景包含猫爬架、狗窝与喂食器」,系统 10 秒内就能完成输出,且每个场景的宠物用品布局、空间动线都不重复——这意味着,即便是不懂 3D 建模的普通人,也能通过自然语言指挥 AI 构建空间。
另外,SpatialLM1.5 其前代版本 SpatialLM 1.0 今年 3 月开源后,迅速登上 Hugging Face 趋势榜前三,目前已有初创企业基于其代码和架构训练出自有模型,验证了开源模式的技术辐射力。
如果说 SpatialLM 1.5 解决的是“理解与交互”问题,那么 SpatialGen 则专注于“生成与呈现”,和解决当前视频模型的核心痛点:空间一致性。
「多视角扩散 +3DGS 重建」的技术路径,不同于传统视频模型生成 2D 视频帧的思路,SpatialGen 依托群核积累的数亿 3D 空间数据集和自研渲染引擎,训练可以生成任意指定视角图片的扩散模型。进一步通过 3D 高斯重建技术搭建工作流,可以实现无论用户从哪个角度观察,光影的投射都能保持 100%一致性。比如在虚拟短剧制作中,角色从沙发起身走向餐桌的过程中,吊灯的影子会随角色移动自然变化,餐桌椅的相对位置始终不变——彻底告别了「视角切换就穿帮」的尴尬。
图: TechDay现场, 群核科技首席科学家周子寒介绍空间大模型
据了解,SpatialLM 是依托于群核科技自研的矩阵(CAD)引擎,通过该引擎用户可直接在生成的 3D 空间中调整参数:比如将墙体厚度从 24 厘米改为 18 厘米、把卧室门的位置从东侧墙移到南侧墙,场景会自动适配这些变化;而 SpatialGen 依托群核 KooEngine 光线追踪技术,场景的材质质感与光影效果达到影视级水准——模拟玻璃茶几的反光时,能精确计算光线的折射角度;渲染木质地板时,能还原木纹的肌理与光泽,让 3D 空间不仅「逻辑正确」,更「看起来像真实世界」。
要理解群核科技的突破,首先得看清空间数据的「难」到底难在哪。
AI 理解空间,需要的不是「客厅有沙发」这种模糊描述,而是「沙发长 2.2 米、宽 0.9 米,承重 300 公斤,面料是防污布」这类物理参数。但现实中,你可以用相机拍一张客厅照片,却拍不到墙体的厚度;可以录一段开门的视频,却录不出门的铰链方向、开合角度限制;能看到玻璃反光,却测不出光线的折射系数……
更关键的是,「看起来像沙发的图片」和「能让 AI 理解沙发物理属性的数据」完全是两回事。前者是 2D 表象,后者是 3D 结构化信息。文本数据可以爬取全网信息,图像数据能通过摄像头批量采集,但室内空间的物理规律与结构关系,需要的不是简单的文字和图片数据,而是包含物理参数、空间逻辑、动态交互的高质量 3D 数据。
全球最大的图像数据集 ImageNet 有 1400 万张图片,但能标注出「室内物体相对位置+物理关系」的数据集,直到 2018 年群核发布 InteriorNet 前,几乎是空白。
群核科技所谓的「空间智能」,本质上是形成了「工具-数据-模型」的三位一体飞轮。
工具层,群核的底气来自酷家乐这个积累了超 4 亿个 3D 模型及 5 亿个结构化 3D 空间场景的「隐形的数据引擎」。作为全球最大的空间设计平台,酷家乐不是简单的「绘图工具」,而是一个「3D 空间数据生成系统」——用户在上面设计家居时,每一步操作都在「生产结构化的 3D 数据」。
数据层,群核科技 2018 年发布的全球最大室内深度学习数据集 InteriorNet,包含数万套不同户型、不同风格的室内场景数据,每套数据都标注了物体坐标、空间关系、材质参数,填补了「室内结构化数据」的行业空白;今年开源的 3D 高斯语义数据集 InteriorGS,更是首次将 3D 高斯技术引入 AI 训练,能在保证精度的前提下,大幅降低数据存储和处理成本。
模型层,有了工具生成的海量数据、开源数据集的行业支撑,群核的空间模型自然能实现「跨越式进化」。以空间语言模型 SpatialLM1.5 为例,它的核心能力在于「自然语言生成可交互场景」;而空间生成模型 SpatialGen 能解决「空间穿帮」问题,「多视角扩散 +3DGS 重建」技术,生成具有时空一致性的多视角图像,并支持进一步生成 3D 高斯(3DGS)场景并渲染漫游视频。
现在的空间大模型,有点像早期的 GPT-2,——已经实现了生成场景、完成一定交互的基础能力,但还远没到「能应对所有场景」的通用水平。
不过群核这类做空间智能的企业,已经找准了行业里的真问题,探索出了切实可行的应用路径,尤其在解决「空间一致性」,实实在在产生了价值。空间一致指的是生成的视频在空间维度(单帧画面内部)保持高度的一致性和连贯性。
在 3D 内容创作与交互领域,一直存在着很多「穿帮」,比如 AI 生成的虚拟场景中,镜头从正面切换到侧面时,沙发突然从茶几左侧「瞬移」到右侧;电商 3D 展厅中,同一台冰箱在不同视角下,尺寸忽大忽小;行人走动的时候身体直接「穿过」墙体……这种抽卡式的不可控生成结果意味着这些场景不可复用,对创作质量和创作效率产生极大限制,当下视频模型离取代完整的视频制作管线还有距离,也意味着其离真正的商业化应用仍有一定距离。
以 AI 短剧为例,这几年发展 AI 短剧势头正猛,产量规模较大,对提升创作效率、降低制作成本有迫切需求,因此短剧成为 AI 很好的应用场景。但 AI 短剧一直受「场景不连贯」和「做起来慢」的拖累。一部短剧常要多个室内场景,还得保证剧情里的空间逻辑,比如主角放客厅的水杯不能消失,窗外阳光角度得符合时间线。可传统 AI 工具要么只能做单一场景的静态图,要么做动态场景时一换镜头就出问题,比如人物不一致、场景不一致。
这背后的原因是当下多数视频生成模型是基于图像或视频数据训练,图像缺少人类感知空间时所依赖的深度线索,因此仅凭自然语言难以让 AI 建立精确的空间关系认知,因此会缺乏对 3D 空间结构和物理法则的理解和推演能力。
而群核空间大模型基于物理正确的空间数据训练而成,因此它在「全场景物理一致」上表现优异,为这些「穿帮」提供了很好的解决方案。
在 TechDay 现场,群核还首次分享了内部正在秘密推进的 X 项目,并展示了部分成果。所谓的 X 项目是一款基于 3D 技术的 AI 视频生成产品,目前该产品正在研发中,并计划在今年内正式发布,这是一款深度融合 3D 能力的 AI 视频生成 Agent,通过构建 3D 渲染与视频增强一体化的生成管线,可以显著弥补当前 AIGC 视频生成中空间一致性不足的问题。
图: 群核科技首席科学家周子寒
以下内容来源群核科技首席科学家周子寒与媒体的交流,经 Founder Park 整理编辑。
问:SpatialLM 叫空间语言模型,怎么理解这个概念?
周子寒: 空间语言模型其实就是一个语言模型,它不像视觉语言模型(VLM)一样引入了另外一个模态,它就是一个语言模型。只不过这种语言模型的语言叫做空间语言。
一个纯文本模型,比如 GPT,可以说中文,可以说英文、法文等,现在我们希望它能学会一门新的语言,空间语言,对场景以数字文本的方式进行描述的语言。大语言模型,比如 GPT-5,也可以理解空间,但能力还比较基础,需要很多引导。在我们看来,空间语言模型是一种对大语言模型的拓展,而不是给它加上了另外的模态。
问:用数学文本对空间进行描述,这是一个全新的语言吗?它和自然语言有什么区别?
周子寒: 空间语言并不是我们创造的一种新的语言,它其实有很悠久的历史。它由英文字母和数字组成,在我们的 demo 中可以看到,这些字母和数字可以描述一个空间场景的 3D 信息。这也是计算机辅助设计(CAD)领域所使用的语言,从简单的几何元素(点、线、面),再到更复杂的物体进行建模,再进行空间创作。计算机辅助设计是一种工具,要基于人的操作,用这种几何语言加上参数等,创建一个空间。
今天的 SpatialLM 就极大地受到 CAD 语言的影响。当设计师或者用户使用 CAD 软件时,他们的每一个操作背后都是一个计算机指令,和你今天看到的空间语言的指令没有太大的区别。
问:数据量很大程度上决定了大模型的效果,空间大模型的数据量是一个很大的挑战吗?
周子寒: 是的,空间语言的训练素材也是来自于平台上沉淀的 3D 场景,显然说它不可能是无限的,我们也没有指望一直将它作为单独唯一的数据来源。因为刚才也提到,我相信只要搭建一个可反馈自运转的系统的话,我们希望它能很快地去脱离任何的存量数据。我们希望存量数据是教会它一些基础能力,会增、改、删、查的基础操作,有一定的空间感,剩下的事情就让它自己去慢慢探索。
问:您之前提到,加入群核就是因为它有着数据层面的优势,我们怎么理解这个优势?
周子寒: 我一直在做三维视觉相关的研究。三维数据,与文本、图像最大的不同在于,它无法通过互联网的方式快捷地获取。大家获取 3D 数据无非是两种路径:一,实地扫描,成本高,硬件公司倾向于这种路径;二,通过写规则进行大量生成,虽然数量多,但质量没有真实场景的好。所以一直以来行业里存在「两难」的困境。
群核比较特殊,它找到了第三种路径,通过酷家乐的业务切入,建造一套工具到数据再到模型的闭环,相比其他路径,有更明确的可持续性。
当然这件事也有着它的时代机遇,群核比较幸运,把这个「飞轮」搭建起来了,包括之前做的 CAD 软件和实时渲染引擎,这些都不是一两天做成的,但当你做成了回头看,这件事发生得非常自然。在这样的业务闭环的基础上去获取数据,它的 ROI 与其他路径是截然不同的。
问:SpatialLM 和 SpatialGen 这两款模型是群核从头训练的还是基于开源模型进行训练的?
周子寒: SpatialLM 1.5 是基于 Qwen3 的底模进行训练的。我们希望大语言模型已经学会了 100 种语言的情况下再学会第 101 种语言,一个自然而然的选择就是基于一个已经有的语言底模去训练这一模型。训练的方式是让它进一步地关注这种空间语言的语料,遵循的技术路线与现在的大语言模型训练没有太大的差别。
SpatialGen 是基于扩散模型去进行继续训练的模型。它用到的数据,我们刚才在 PPT 当中也有展示,是通过自己的渲染引擎在各种场景去渲染了许多多视角图片,再去进一步训练的。
无论是模型架构还是训练框架是比较标准的,没有特别复杂的设计。
问:基于 Diffusion 模型的 SpatialGen,它的生成一致性是不是受到底模影响比较大?对于生成内容的质量,我们如何评价好坏?
周子寒: 首先回答你的第一个问题,底模对于空间一致性的影响。它确实会受到底模能力本身的影响的,如果用更强大的底模做这件事,显然效果会更好。
至于怎么去评价其效果,一方面是会和业务场景挂钩。如果我们希望 基于 SpatialGen 在 AIGC 创作应用当中通过一些工作流去拿到结果的话,就需要技术美术专家,评估将这个工作流串起来之后是否可以输出满意的效果。他们会去评估生成的效果是否满足在一些业务上,比如在电商方面的落地需求。
另一方面是纯算法的评估。一般在学术论文当中,就是通过高斯渲染出一些图片,比较图片的量化指标,比如 FID 等,非常标准的指标。其实它的参考性比较有限,说实话,没法做到很公平地跟另外一个模型对比,因为模型的参数量以及训练的数据完全不一样,很难两个东西做对比。
问:在与 SpatialLM 的交互中,以空间语言作为输出,包括生成资产的时候,一些资产的编码就是群核的数据库。如果脱离了数据库,是不是就不成立了?在兼容性上群核是如何思考的?
周子寒: 我们在设计的时候,刻意地让资产库与模型本身是解耦的,可以让这个模型去对接任何的资产库。这个解耦可以从多个维度去理解,首先是搜索资产库就是这样一个 function call,理论上可以调用任何的搜索引擎。
其次,搜索的内容也是用纯文本的形式去描述的,所以在去对接任何别的资产库,哪怕是一个公开的物体资产库的时候都可以去直接对接。当然最终对接效果取决于多方面,比如资产库本身的物体多样性。
这个东西跟群核自己的资产库并没有任何特定的绑定关系,这是为什么我们可以将整个系统做开源的原因,只要大家用任何的资产库都可以同样使用,如果你实在没有,也可以调用三方 API 去生成,这在未来都是可以实现的。
问:SpatialGen 是 3D 内容的生成,您提到 3D 高斯的方法,用多视角图像的生成,这里还是难以摆脱多视角生成图像的一致性问题。这个问题群核现在有解决的思路吗?
周子寒: 对,我们的多视角图像生成模型还是基于这样一个图像生成技术的,它之所以能呈现比较好的空间一致性,更多是依赖于我们在室内空间数据方面的优势,我们可以很高效地获取非常多的任意视角的图片进行训练,当你在训练了足够久的时间以后, 随着数据量不断 scale up,空间一致性也会做得越来越好。
这里有一些与视频模型不同的点,我们一开始就不想让模型受到时间轴的约束,而是在空间当中能灵活跳动。这种灵活性在一些 AIGC 工作流中是有益的。相比于用纯视频模型,如果要保持两点间的空间一致性,就要生成整个中间过程。这是一种新的视角,并不代表一种全新的技术路线。
我们注意到空间一致性并不是绝对的,当反复迭代使用生成模型时,一致性一定会受到影响,但我们相信 scaling law 一定会让它越做越好。
问:有机会绕过二维图像,直接从文本到三维,构建 3D 数据吗?
周子寒: 我们有在探索这样一条路线,希望能将文本和 3D 高斯,或是 3D 表征直接去做一个连接,而不用中间的多视角图像。
目前来看,它有一个视觉效果与空间一致性的 trade off,如果用图像作为中间过程的视觉效果会好很多,如果直接从文本到 3D 的话,目前视觉效果稍微差了一点。这是两个不同的技术路线,在未来一定会有新突破。
问:群核的空间大模型能够为 具身智能 提供训练的数据,这些数据与机器人在真实场景下的应用,中间存在怎样的 gap?
周子寒: 在三维世界比较稀缺的时代,我们在虚拟场景能创建的数据和真实场景还是有较大不同的,其实在做具身训练的时候会遇到 sim2real 鸿沟与问题。
但一方面,我们看到语言这个模态的泛化性在所有的模态当中最好的,有了空间语言的基础之后,我们希望它可以通过多语言结合的方式去依托其他语言去提升整体泛化性。
另外一方面,空间语言还有一个特点,是它有一个 3D 可视化交互系统。基于交互反馈,我们可以让它慢慢演进出泛化能力。比如你告诉它,你需要去摆 6 个椅子在这个房间里,它就自己去摆了,但只摆了 5 个,这时候系统可以给它反馈,提示它用类似于大语言模型的推理训练一样去自反思、自己修正。这里的关键在于,在这个过程当中创造了新的训练数据,就不再局限于我们现在能给它提供什么数据,只要让它在这个环境中去玩,就可以获取更好的泛化性。
问:您分享提到,现在空间大模型处于 GPT-2 的阶段,如果它要通向 GPT-3 或 4,会有怎样的新能力?过程中难点是什么?
周子寒: 为何是 GPT2,首先大家知道 GPT-1、2、3 分别的侧重点。
大家可能知道,GPT-1 是第一次将 Transformer 的架构用到大规模的语言建模上,而 GPT-2 是将语言建模作为了一种通用训练框架或推理范式去支持多个任务。现在 SpatialLM 做的事情也比较类似,用空间语言去支持各种任务,而不是去解决某个特定任务。但它不单单是一个 GPT-2,因为它是基于 GPT-4 能力的底模去训练的,比如千问 3,它的能力是很强大的。当你的某些语言能力比较弱,另外的能力比较强的时候会发生怎样的「化学反应」,这是一个很有趣的科研问题。现在还在内部的研究过程当中,有了更充分的理解之后,我们希望通过技术报告的形式能够开源出来。
问:这两年您的团队发表了几篇论文,想问问您,怎么将研究方向对齐到公司的方向上,产研团队又怎么将我们的研究方向去落地成产品?
周子寒: 这个问题非常有意思,我们也在不断地探索当中,每一家都有各自的独门绝技或是踩过的坑。
这两年的心得体会也可以跟大家分享一下,因为我们作为一个企业的研究院就要去关心业务落地,也要去关心前沿探索,这就非常具有挑战。
现在我们发现,大家在做大模型领域中,对于模型的架构和算力的要求,框架已经比较成熟了,没有特别大的变化,对我们来说是有帮助的,我们要考虑的变量会更小一些。
对我们来说最大的一个特点是三维数据,我们花了很大的时间去做了数据工程,就像大语言模型训练需要很多语料,通过外包,自己搭建数据平台的方式去获取,我们这种数据也需要比较复杂的数据工程的平台去获取,我们花了很多时间去搭数据平台,搭完之后发现可以同时支持科研和业务应用。
对于科研和业务来讲,其区别在于对于数据分布的要求会不一样,就像我做应用落地的时候,我需要去更多地关注用户的一些特定的需求,就会在平台上去找这样的一些满足用户需求的特定数据,去解决用户的独特需求,所以数据分布是基于用户的需求而定的。
做科研的时候,我们就会基于一些自身想要的数据分布做训练,,但其底层的数据工程链路都是可以复用的。现在大家的观察是这些大模型框架比较成熟,算力平台也都比较成熟,所以还是有很多可复用的东西的,对我们来说是一个好处,不像原来做科研要做一套算法,做应用要做另外一套算法。
来源:晚晚的星河日记一点号