摘要:生成文字靠语言模型,生成图像靠扩散模型,但要从一张二维图片“复原”出一个真实存在于空间的物体,却远比想象中复杂。它要求模型不仅能理解形状,还要理解尺度、光照、材质与物理属性——也就是让算法,不只是“看见”,而是“构建”一个世界。
在生成式 AI 的发展中,3D 一直是一道公认的难关。
生成文字靠语言模型,生成图像靠扩散模型,但要从一张二维图片“复原”出一个真实存在于空间的物体,却远比想象中复杂。它要求模型不仅能理解形状,还要理解尺度、光照、材质与物理属性——也就是让算法,不只是“看见”,而是“构建”一个世界。
这条技术路线走得异常漫长。过去三年,欧美大模型公司更偏向语言、图像、视频方向的竞争,而 3D 生成在全球范围内反而成了一个小众又高门槛的分支。但出乎意料的是,如今这个领域几乎被华人研究者占据:腾讯的 Hunyuan3D、太极的Meshy、VAST 的 Tripo、影眸的 Rodin,都来自中国团队或华人科学家主导的实验室。
这并非巧合。3D 生成涉及多模态理解、几何重建、仿真约束和视觉渲染等系统工程,而这些正是中国科研与工程团队的强项。与其说这是一次算法突破,不如说是一种文化取向的体现——中国团队更擅长处理结构化、具体、可验证的问题,而 3D 世界本身,就是结构的集合。
在这样的背景下,字节跳动正式进入了这一赛道。上周,由 Seed 视觉研究负责人 冯佳时带领的团队发布了Seed3D 1.0—— 一款能够从单张 RGB 图像生成高保真、可用于物理仿真的三维模型的系统。
从技术架构上看,Seed3D 基于 Diffusion Transformer,结合大规模 3D 数据训练,能在输入一张 RGB 图片后,直接生成带有完整几何结构、纹理贴图和物理渲染材质的三维模型。
更值得注意的是,Seed3D 的参数规模仅约 1.5B,但在外部评测中,却超越了部分 30 亿参数级别的模型,比如腾讯的Hunyuan3D 2.1。在几何闭合、多视角一致纹理、材质物理保真度等维度上,Seed3D 已可直接适配工业仿真与 XR 引擎,能被 Unity、Unreal Engine、Isaac Sim 等平台即刻读取使用。
性能表现研究团队基于 43 组图像样本,对六种主流 3D 生成模型进行了系统性评测。评价维度包括清晰度、还原度、几何结构、透视一致性、纹理质量与细节丰富度。结果显示,Seed3D 在多个指标上表现稳定,尤其在复杂几何结构的还原和细节保持方面,生成结果更贴近输入图像的真实形态。这意味着模型在从二维信息向三维空间的映射过程中,具备较强的几何一致性和结构理解能力。
在几何生成部分,Seed3D 的表现尤其突出。评测显示,它在 ULIP-I 与 Uni3D-I 两项几何对齐指标上均取得领先,这说明模型能在较高精度下重建物体形态,并维持表面的闭合性与连贯性。换句话说,Seed3D 生成的模型不仅在视觉上成立,也能满足工程、仿真或打印的结构要求。
纹理生成方面,Seed3D 基于物理渲染(PBR)体系,能够输出包含 albedo、roughness、metalness 等通道的材质贴图,从而在不同光照角度下保持一致的反射与质感表现。研究团队还测试了多视角输入版本 Seed3D 1.0,其在纹理一致性与材质细节上的表现进一步提升。相比传统依赖人工贴图的方式,这种自动生成的结果在效率与可控性上具备明显优势。
在仿真适配能力上,Seed3D 展示出较强的工程兼容性。生成的模型可直接导入到 NVIDIA Isaac Sim 等物理仿真平台中,无需手动调整即可生成碰撞网格和摩擦参数,用于机器人抓取、物体交互等操作实验。实验结果表明,模型在接触力与物理反馈上的表现与真实数据较为接近。对于具身智能的研究,这意味着虚拟环境中可生成更丰富、可重复的训练数据,降低了对真实采样的依赖。
此外,Seed3D 的生成范围已不再局限于单个物体。借助视觉语言模型(VLM)的语义分解能力,它能识别输入图像中的多个对象及其空间关系,生成相应几何与材质后,再重组为完整场景。这种基于“分解—生成—组合”的机制,使模型能够在不同尺度下生成具有空间一致性的 3D 环境,从室内布局到城市街景,均能保持合理的结构逻辑。
实测目前,火山引擎已上线 Seed3D 的体验版本。用户在视觉模型界面中点击“3D 生成”,即可上传图片,生成对应的三维模型。
从官网公开的示例来看,这一版本主要面向电商类应用场景。对于单一物体的生成,Seed3D 的表现相当稳健——文字、材质、纹理等细节都能被准确还原,生成的模型清晰且结构完整。
接着,我们逐步提升测试的难度。对于 3D 模型来说,PBR 材质是决定“真实感上限”的灵魂所在。官方宣称 Seed3D 1.0 能够生成符合物理规律的真实材质,并展示了瓷器、餐具等演示样例,质感出众。于是,我们选取了一只汝瓷盘作为测试对象。
结果令人惊喜:模型不仅准确还原了盘体的光泽与质地,连汝瓷特有的“开片纹”——那种细密却不规则的裂纹肌理——都被完整地重建了。
让我们继续提高任务难度。输入一张包含两个玻璃杯、深色桌面的图片。
模型依然能正确识别杯子的数量、形状与材质,但在颜色理解上出现了偏差。由于背景较暗,原本透明的玻璃被系统误判为深棕色。这类错误虽然不影响几何精度,却揭示了当前模型在透明材质和光照语义方面的局限。
在场景生成方面,我们测死了一张城市的付看图。
可以看到,模型能够从输入图像中识别出物体实例及其空间关系,生成布局图(layout map),其中包含每个物体的尺度、位置与方向。随后,它会为每个物体分别生成几何结构与纹理材质,并根据布局图将这些物体组合成完整场景。
从测试结果来看,无论是物体间的相对摆放还是整体光照的一致性,Seed3D 都表现出较好的空间理解能力,但细节上的表达仍有不足。
对于电商商家、短视频创作者、自媒体人等非专业用户而言,Seed3D 的吸引力几乎是显而易见的——它降低了 3D 创作的门槛,让“建模”这件过去需要专业软件和漫长打磨的工作,变成了一次点击的操作。
闭合几何、物理一致、可进引擎:Seed3D 把 3D 做成了标准件技术层面,如果把“从单图到可仿真的 3D 资产”拆解成几件难事:几何是否闭合、纹理是否跨视角一致、材质是否满足 PBR 渲染、尺度是否能被物理引擎接受、以及从单物体到场景的可扩展性。
Seed3D 1.0 给出的是一条系统化的工程路径,而不是单点“秀肌肉”。
论文给出的框架是以 VAE 学到的几何潜空间为基座,再用条件化的 Diffusion Transformer 在潜空间里生成形体;在贴图与材质侧,引入多视角一致性约束与 PBR 通道的联合估计,使输出直接可进入现代渲染与仿真管线。更高一层,借助视觉语言模型抽取图像中的物体实例与空间关系,再将各对象的几何与材质按布局拼装,完成从“物体”到“场景”的过渡。
整个流程的目标很克制:不是“生成最惊艳的可视化”,而是“最少手工修补即可进引擎跑得起来”。这也解释了为何在几何对齐等量化指标(如 ULIP-I、Uni3D-I)上,Seed3D 相较既有方法有稳健优势,同时在 Isaac Sim 等环境中能自动生成碰撞体并参与抓取、交互等任务验证,形成合成数据—交互反馈—多模态评估的闭环。
把它放回行业坐标系,最直接的参照物是腾讯的 Hunyuan3D 系列。Hunyuan3D-2.0 把体系切成两大件:DiT 负责形状、Paint 负责纹理,并持续公开权重与训练流程,强调社区可复现、可微调、可量产,这让它在游戏与设计生态里更像“开放工坊”——上手快、改造空间大、评测与基线丰富。尤其 2.1 代在 PBR 纹理合成、端到端产线工具与开源程度上走得更彻底,企业可以较低迁移成本把它嫁接到现有美术管线里。
反过来看,Seed3D 的策略更像“工程一致性优先”:参数规模并不夸张,却把闭合网格、PBR 材质与仿真兼容作为硬约束,API 形态先行、权重暂不完全开源,更强调“可用即所得”的稳态体验——你可以把它理解为两种产品哲学:一个偏“可塑、可改、可学”,一个偏“可用、可接、可跑”。
在中国本土的 3D 生成赛道上,两条路径并行不悖:前者不断降低创作门槛,扩大技术普惠;后者则持续抬升工业可用的标准,夯实仿真落地的根基。3D 生成这片重要领域,如今正由华人团队执笔,勾勒出两种截然不同却又彼此呼应的新大陆蓝图。
来源:ZFinance