摘要:近期,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。用户提交一张照片,即可生成 3D 世界。
今日话题:图片生成 3D 世界
近期,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。用户提交一张照片,即可生成 3D 世界。
似乎不必等到人手一个苹果 Vision Pro + 空间视频,就能体验二次元变三次元的玩法。
指路:marble.worldlabs.ai
以下为知友@桔了个仔 实测案例,用他的话说就是「离落地还有点距离,但在某些场景下,例如简单的场景建模,确实也能用上」并且建议「不管有没用,先去加入等候名单」!
PS.还没拿到体验资格的朋友可以到知乎找知友@桔了个仔 ,他正在友情帮测 10 个案例中(手慢无哈)。
@桔了个仔
9 月 18 日 发布于知乎
首先,听我说,不管有没用,先去worldlabs.ai/waitlist 加入等候名单。
还没拿到名额的,可以评论区丢场景图,要求画面不杂乱,我帮忙生成,也算是测试下 marble 能力边界了。精力有限,这里就放 10 个帮忙测试的 名额,先到先得
我对 marbel 的评价是:很强,从官网的效果看,很逼真,毕竟 world labs 去年才成立,能跟上业内先进水平,已经算是很不错的成绩了。
实测了下,还不错,当然,离落地还有点距离,但在某些场景下,例如简单的场景建模,确实也能用上。
2025-09-18更新:beta access 给我通过了,还挺快,等了一天不到。
新用户有 5000 个 credit,这是啥概念?它提供了两个模型,分别是 marble-0.1-mini 和 marble-0.1-plus,每次调用分别消耗 10 点和 50 点,也就是,最少你也能调用 100 次,可以说非常慷慨了。
我这里测试几个案例吧,都是用自己拍的图。
其实输入图片也是有要求的,这是 marble 的 tips,尽量用结构好,室内场景,光照好的图,不要用人和物品在中间的图(可以看出,这不是 hyper3d 那种模型生成模型),不要人多拥挤的场景。
这里挑了几张图。
第一张图是今年新知大会现场拍的。
把这个图直接传上去,marble 会自己根据图片生成叫 World Guide(相当于prompt),然后开始生成。
plus 模型确实效果好一些。但依然也和官网 demo一样,边缘场景不清晰。由于 mini 效果实在不行,我剩下的场景只测 plus 模型了。
再换个场景,某条河边随手拍的。
plus 模型效果如下。
生成效果如下:
济州岛,loopy 专卖店。
生成效果如下:
总结体验:
中心清晰,越往边缘越模糊文字经常扭曲对风景场景预测效果较好,对室内场景预测相对差一点,很正常,毕竟风景相对单一,但室内东西更复杂给我感觉很很像 autoregressive 的 3D 版本的 Diffusion model。其他世界模型又如何呢
其实 3D 建模的模型我之前也用过一些,例如我之前用Claude+blender MCP,调用 Hyper 3D 的接口,生成了不错的鸭子模型:
Claude+MCP+Blender+3D 打印机,轻松实现AI赛博捏泥人 - 桔了个仔的文章 - 知乎
不过,这种算不上世界模型。
在世界模型方面,其实 Deepmind 出的更早, deepmind 去年就出过 genie2 了,今年的 genie3 更是惊艳。不过可惜的是,两个版本的 genie 都没有向公众开放。
但可以从网上有限的 demo 视频里窥一眼。这两个是我从 YouTube 上找到的:
另外,国内的话,腾讯混元也参与到这个领域来。不过,目前而言,我个人认为,效果还是比前两者要差点的。
注意:混元 3d 场景有两个功能,「漫游全景」才是真是世界模型,左边那个「360°全景图」功能只是个贴图,跟 iPhone 拍照里的「全景」本质上是一样的原理。
主观而言,就从目前各家的 demo 来看,marble 里 genie3 还差点,比混元 3d 好点。作为第一版模型,能做成这样,还是不错了。
虽然总体而言,现在的世界模型要完全模拟真实世界还是有点距离,但给人感觉,距离商用可能不远了。大家都能想到,可能游戏领域会先应用,场景设计师可以利用这种工具生成可交互的环境初稿,然后再细化,用于快速场景的构建,虽然目前看起来,边缘有点细节不足,但把边缘裁掉后,完全可以直接用来当小型游戏的场景了。这对独立游戏开发者来说,可谓是福音了。
来源:小镇评论家