摘要:今年3月,群核科技在英伟达GTC大会发布的空间理解模型SpatialLM,能通过视频快速生成三维空间模型,使机器具备了类似人类的空间认知能力,迅速引发了全球AI社区的热烈反响,甚至冲上了全球最大的AI开源社区HuggingFace趋势榜第二位,与阿里巴巴、谷歌
在人工智能飞速发展的时代,机器人虽能完成惊人动作,但在理解真实三维空间方面仍面临巨大挑战,如同缺少“眼睛”和“大脑”。
今年3月,群核科技在英伟达GTC大会发布的空间理解模型SpatialLM,能通过视频快速生成三维空间模型,使机器具备了类似人类的空间认知能力,迅速引发了全球AI社区的热烈反响,甚至冲上了全球最大的AI开源社区HuggingFace趋势榜第二位,与阿里巴巴、谷歌等国际科技巨头的顶尖技术比肩。然而,群核科技虽然开源了SpatialLM的预训练模型,却没有公开如何训练这一模型的具体方法,这让全球的开发者们很难进一步深入探索和应用这项先进技术。
就在业界略感遗憾之际,深圳南山区的初创企业生境科技带来了惊喜。这家成立仅一年多的年轻公司,在SpatialLM发布后不久,便宣布基于公开资料和自研实践,成功复现并完整开源了SpatialLM模型的训练方法、数据集及全部代码,极大推动了空间智能技术的普及。
技术突破:开源核心训练方法,降低行业门槛
生境科技的开源成果,为开发者提供了清晰的技术蓝图。据介绍,其关键创新点包括四个方面:
大规模数据集整合与标准化:整合了Scannet、Matterport等六大全球知名三维数据集,构建了庞大的训练库,并通过统一格式转换和区域分割,提升了模型对局部空间的理解精度。
高效点云处理:采用八叉树网格采样等技术,将百万级点云数据压缩至数千关键点,同时保留丰富的几何与颜色信息,平衡了数据规模与特征丰富度。
创新空间编码:独创性地使用连续变量分箱策略,将三维坐标和尺寸转化为离散整数,使复杂空间信息更易于语言模型理解,显著降低了空间定位误差达37%。
优化模型与训练策略:结合ResNet3DSparse稀疏卷积网络与Qwen2.5语言模型,并通过特定机制融合视觉与语言信息。采用“先视觉后语言”的两阶段训练法,大幅提升了模型整体性能和训练效率。
影响深远:赋能具身智能,重塑产业生态
生境科技的这次开源行动堪称是空间智能领域的一次里程碑,极大地降低了开发者进入这一领域的门槛。
当前机器人技术的进步虽快,但室内空间感知一直是短板。室内环境复杂多变,不同的家庭结构各异,且人工收集高质量的空间数据成本极为昂贵。要让机器人真正实现智能化,靠现实采集是不够的,因此,利用合成数据训练机器人成为必然趋势。
正如英伟达在今年的CES 2025上所指出的:“尚无互联网规模的机器人数据”,自动驾驶汽车虽然已经具备城市级别的仿真训练,但家庭、办公室等复杂的室内环境还缺乏有效的三维数据平台。SpatialLM的出现和生境科技的开源行动,正是填补了这一领域的重要空白。开源行动迅速引发全球开发者热烈反响, HuggingFace社区也涌现出结合该方案探索具身智能新范式的讨论。
商业与生态:打造空间智能基础设施
生境科技不仅开源了核心技术,还依托自研的Sengine SimHub平台,构建了完整的空间智能生态。该平台能根据户型图、法规、用户偏好等自动生成可交互的三维场景,为机器人路径规划、视觉导航等训练提供高效支持,也被视为未来具身智能的核心基础设施之一。
作为深圳南山科技创业的新秀,生境科技在短短一年多时间内,已获得院士、知名教授的大力支持及顶尖机构亿元级投资,并斩获华为云开发者大赛全国一等奖等多项荣誉。团队目前共有43人,其中35人为算法研发工程师,创始人刘紫东为美国德州大学奥斯汀分校AI设计交叉学位博士在读。其AI技术已为百度、万华等企业提供服务,日均API调用量过万,致力于让复杂的室内设计变得简单智能。
这场由深圳团队引领的开源实践,正为全球AI创新注入新的活力,有望推动机器人更智能地走进千家万户。
来源:深圳商报