SIGGRAPH Asia 2024:3D AIGC与具身智能引领计算机视觉新热潮?

B站影视 2024-12-11 11:51 2

摘要:第十七届 SIGGRAPH Asia 大会在东京圆满落幕,这场为期四天的盛会以“好奇之心”为主题,吸引了众多学者和专家前来参与。注册人数和论文投稿数均刷新了历史记录,充分展现了学术界对这一领域的热情。

第十七届 SIGGRAPH Asia 大会在东京圆满落幕,这场为期四天的盛会以“好奇之心”为主题,吸引了众多学者和专家前来参与。注册人数和论文投稿数均刷新了历史记录,充分展现了学术界对这一领域的热情。

在大会的舞台上,华人学者再次成为耀眼的焦点。无论是哪一场演讲或哪一篇论文,几乎都能看到华人学者的身影。他们的研究成果和创新思维,为大会注入了源源不断的活力。

在计算机视觉学界,研究者们主要分为新兴派和传统派。新兴派聚焦于具身智能和3D生成等前沿领域,而传统派则继续深耕几何建模和几何处理的细节问题。尽管新兴派的论文成果如雨后春笋般涌现,但传统派的研究依然占据着一席之地。

除了学术论文的激烈讨论,今年的展位同样热闹非凡。与往年相比,动作捕捉的展示项目占据了主导地位。同时,以VAST、影眸、元象为代表的3D AIGC大陆厂商也积极参与了展出,展示了他们在这一领域的最新成果。

从产业化的角度来看,3D的应用面目前还无法与多模态大模型相媲美。然而,深圳大学计算机与软件学院教授胡瑞珍对这一领域的发展前景十分看好。她认为,数字媒体的形式一直在不断迭代更新,从最初的音频到二维图像视频,未来很可能会发展到三维形式,如体积视频、元宇宙等。这些新兴领域都强调3D内容和三维感知。

现阶段,3D领域还是一条相对不那么拥挤的赛道,这为学术研究和创业提供了广阔的发展空间。在大会现场,多位从业者表示,3D生成方向的技术成果正在快速更新,但关于端到端和多步迭代路径的选择,业内还存在一定的分歧。

技术尚未完全成熟,因此3D AIGC的应用落地还处于早期阶段。用户对三维的认知和需求都有待提升。目前,3D在游戏、美术设计和电商等贴近日常生活的领域应用较多,而工业界的落地已经相对成熟。在Animation技术方面,还需要取得更多突破,特别是在骨骼方面缺乏具有规模性的模型。

在几何和纹理方向,近年来持续涌现出前沿技术。海外如meta的3D Gen、Adobe的LRM、Google的DreamFusion等,国内则有CLAY、TEXGen等代表性技术。影眸科技在SIGGRAPH上被提名荣誉奖的3D原生Diffusion Transformer生成式大模型CLAY,解决了2D升维法的问题,实现了直接从3D数据集训练模型的突破。

CLAY的进阶版本Rodin Gen-1也在今年6月正式上线,并在大会上展出。VAST采用基于rectified flow的大规模形状生成模型,能够在采样步数更少的情况下实现更高精度,同时训练更稳定。在纹理生成方面,此前主流的操作方式存在各种局限,如依赖图像模型而不具有整体三维感知能力等。

此次,VAST和港大、清华团队获得最佳论文提名奖的论文《TEXGen: a Generative Diffusion Model for Mesh Textures》提出了新的解决方案。论文第一作者余鑫表示,他们做的模型不需要依赖2D升3D的方式,直接训练一个原生的diffusion model输出3D纹理内容。这种原生的3D模型能一次性生成整个物体的纹理。

余鑫认为,纹理比几何更复杂、变化更大,且神经网络难以处理纹理数据。因此,这一赛道当前还鲜有人切入。他之前也尝试过利用2D升维的3D生成工作,但认为长期来讲,还是要走通过3D数据训练的feed-forward路线。

在数据方面,多位业者强调数据对于3D生成平台的重要性。VAST首席科学家曹炎培表示,他们目前拥有2000万高质量3D训练数据,而训练开源模型或没有私有数据的团队可能只能用到几十万数据。这种数据量的差异会导致最终3D AI生成模型在精度、泛化性、多样性和可控性等方面的差异。

影眸科技CTO张启煊同样强调了数据质量的重要性。他认为,对于3D生成来说,数据的绝对数量并不重要,质量才是关键。高质量数据需要足够细节、平整,达到production ready的质量,才能用于实际生产中。

除了数据,3D Tokenizer也是当前技术上具有挑战性的部分。文字Tokenizer已经发展到比较成熟的阶段,图像、视频方面也有了Sora等先例,但3D的研究成果还在持续更新中。应用场景方面,3D生成领域目前还不够明晰。业内认为,如果仅服务于游戏、美术等方面,市场盘子不够大。多家厂商目前主要集中于游戏、设计、3D打印、电商等落地场景。

VAST面向的场景之一是帮助游戏、动画行业降本增效,降低内容制作成本和时间。另一个场景是泛定制化、泛工业的3D打印。未来最关注的场景则是需要实时低成本3D内容创作的UGC场景。曹炎培表示,从逻辑和技术发展趋势上来讲,3D内容平台是未来一定会出现的应用方向。

影眸科技切入的赛道与VAST有所不同,他们所做的工具更为专业。在今年SIGGRAPH的Real-time Live环节中,影眸团队展示了其特有的3D ControlNet功能。张启煊表示,他们希望让艺术家能够自己掌控生成的环节,而不是让AI像老虎机一样随机生成。

电商也是3D生成当前的一块落地场景。影眸目前主要为家具、工艺品商家提供3D模型。不过,服装类暂时不被各家纳入应用范畴。此前,虚拟试衣一直分为3D和2D两派。张启煊表示,现在大家想做虚拟试衣,基本上会跳过3D步骤,直接进行视频生成。

在工业界范围内,3D的落地已经相当广泛。胡瑞珍表示,类似智能智慧工厂、港口的智慧调度等场景都需要三维内容。这部分的发展远比人们想象的要成熟,只是距离日常生活稍微有点远,许多人不太了解。

动态3D模型方面,元象选择了3D市场中的其他切入方向。大空间VR是他们此次展出的重点产品。元象引擎和AIGC算法负责人黄浩智表示,他们主要以超采样配合性能优化带来高清晰度画面,品质清晰度、不眩晕以及帧率稳定是他们大空间VR的优势。

元象还展示了一款骨骼动画的插件,通过文本生成骨骼动画的动作。不过,在Animation Rigging方向上,还比较缺少用数据训练得非常充分、非常具有规模的模型来服务动态3D。MotionGen在动作自然度、文本匹配度等方面还有待提升。

来源:ITBear科技资讯

相关推荐