摘要:随着三维计算机视觉技术的不断进步,三维人类-物体交互(3D Human-Object Interaction,3D HOI)建模成为了一个备受关注的研究方向,尤其是在虚拟现实、增强现实和机器人技术等领域。现有方法主要局限于单向建模,需要为每种条件设计独立的模型
随着三维计算机视觉技术的不断进步,三维人类-物体交互(3D Human-Object Interaction,3D HOI)建模成为了一个备受关注的研究方向,尤其是在虚拟现实、增强现实和机器人技术等领域。现有方法主要局限于单向建模,需要为每种条件设计独立的模型,无法灵活处理复杂的交互场景。本文介绍一篇来自德国蒂宾根大学和慕尼黑工业大学的工作,目前已经发表在计算机视觉顶会ICCV2025上。本文提出了一种名为TriDi的方法,通过三向扩散(Trilateral Diffusion)过程可以同时建模人类、物体和交互的联合分布,打破了传统单向模型的局限,能够在多种输入条件下生成高质量的三维交互模型。
论文题目: TriDi: Trilateral Diffusion of 3D Humans, Objects and Interactions文章链接: https://arxiv.org/abs/2412.06334
项目链接: https://virtualhumans.mpi-inf.mpg.de/tridi/
目前的三维人类-物体交互(3D HOI)建模方法存在以下两大问题,影响了模型的准确性和应用范围:
单向建模。目前3D HOI方法仍然是单向建模方法,这类方法的主要问题在于,模型需要为每一个特定的条件(如“给定物体,生成人体姿势”或“给定人体姿势,生成物体”)设计不同的架构和训练流程,这使得模型在扩展性和效率方面表现不佳。并且,这种单向建模方法难以充分利用三者之间的结构性依赖,也限制了模型在复杂条件下的生成能力。
缺乏交互细节。现实世界中,人、物和交互是高度耦合的,人的行为和姿势会依赖于被操作的物体,人和物体的交互又受到人体姿态的约束。单向建模方法仅通过基于物体或人体的几何特征来恢复另一方的姿势,未能深入考虑交互过程中人物与物体之间的微妙细节。
因此,目前该领域迫切需要一个统一的概率模型来同时建模人体 、物体 、人与物体的交互 三种模态之间的联合分布,来实现跨模态的条件生成和推理。
本文提出了首个将人体姿态、物体与人与物之间交互进行统一建模的联合概率模型TriDi,如上图所示。TriDi模型将三种模态融合为一个整体框架,旨在捕捉它们之间复杂且紧密的依赖关系。TriDi支持在七种不同的条件配置下进行采样,涵盖了以往工作中分别处理的多种场景。
本文提出的TriDi模型旨在对人体、物体和 交互的三变量联合分布 进行建模,从而统一处理人类、物体与交互之间的复杂关系,具体框架如下图所示。
在这一节中主要介绍TriDi模型如何表示人体、物体和 交互三种模态。
(1)人体的表示:基于常用于人体姿态与形状建模的SMPL+H体模方法。人体的表示被分解为姿势 、形状 和全局姿势 ,定义为:
(2)物体的表示:由物体特征 和物体类别 两部分表示,TriDi模型接收由用户提供的物体几何形状作为输入。
(3)交互的表示:采用接触图和文本描述结合的联合表示方法,本文提出了一种学习紧凑统一潜在表示的方法,将交互 编码到一个共享的潜在空间中,如下图所示:
具体而言,给定一组配对数据 ,其中 为该交互的文本描述, 为定义在人体表面顶点集 上的接触图,本文同时训练以下编码器和解码器:
接触图编码器 : 将接触图映射到潜在空间中的向量 ;
文本编码器 : 通过 CLIP 模型将文本 编码为文本特征
接触图解码器 : 用于将潜在表示重新解码回接触图 。
为了统一这两种模态,作者设计了如下损失函数 进行优化:
最终,交互 转换为统一潜在空间的一个紧凑向量,表示为 。
2.2 三向扩散模型随后作者提出了一个三向扩散模型,该模型基于扩散过程进行联合建模,在扩散过程下的噪声期望定义如下:
为了学习三模态的联合分布,模型参数 通过最小化扩展后的联合扩散重建损失进行优化,损失函数定义为:
, , 表示在扩散过程中的人体、物体和交互的表示, , , 表示相应的时间步, 是物体的条件信息。通过这个过程,TriDi能够在三种模态之间进行生成和推理。
2.3 具体实现在详细实现时,本文以Transformer 架构为主体,额外引入了一个embedding层,将所有输入模态映射到统一的 token 空间中,如以下公式所示:
在所有输入中,唯一必需的条件是物体的表示,其他模态的输入属于可选。为了帮助网络学习三种模态之间的联合依赖关系, 、 、 这三种输入分别转化为 token,并通过自注意机制实现跨模态交互,从而捕捉人-物-交互之间的细粒度耦合关系。
三、实验结果本文使用了四个数据集来评估TriDi模型的性能,分别是BEHAVE、GRAB、InterCap和OMOMO数据集。这些数据集包含了3D人体、物体及其交互数据,用于训练和验证TriDi模型的生成能力。作者将TriDi与现有的单向建模方法(如GNet)以及其他基于扩散模型的HOI建模方法进行了比较,以验证TriDi在生成3D人体、物体姿势和交互建模上的优越性。
3.1 定量分析如上表所示,TriDi在生成的分布质量上显著优于基线方法。在BEHAVE数据集的 模式下,TriDi的COV达到了51.71%,MMD为0.166,显著优于ObjPOP+cVAE方法。较高的COV,表明TriDi生成的样本更好地覆盖了目标分布。较低的MMD说明TriDi生成的样本与地面真实数据的对齐度较高。
3.2 定性结果随后作者也展示了本文方法与其他方法的定性对比结果。前两列分别展示了TriDi在 和 模式下的生成效果。例如, 在 模式下,TriDi生成的样本避免了与物体(球)之间的穿透,并且在人类与物体的接触点上表现得更加一致。 相比之下,GNet方法则出现了物体交叠或细节缺失的问题。在 模式下,TriDi生成的结果更加自然流畅,特别是在不受接触限制的肢体表现上,准确性也更高。
3.3 场景填充实验结果本文还验证了TriDi在多种条件下进行场景填充的实用性,实验结果如上图所示。在这些实验中,作者将一个虚拟物体或人物放置在HPS数据集中的场景中,并利用TriDi生成与之匹配的交互结果。上图中的左图展示了在人与物体交互条件下TriDi生成的结果。右图则展示了TriDi用于人与物体联合生成的效果。这些实验结果展现了其在动态场景中生成合理交互的能力。
3.4 从图像中重建3D交互结果本文提出的TriDi方法还能够间接地从图像中重建3D人类-物体交互。上图展示了来自DAMON数据集的示例,该数据集为HOT图像以及人体接触标注。尽管TriDi并未在DECO数据集上进行专门训练,但其出色的泛化能力使得它能够成功地扩展到这类场景中,并生成准确的3D交互结果。
本文提出了一种创新的三模态联合生成模型TriDi,用于同时建模和生成人体、物体及交互。TriDi通过三向扩散过程将这三种模态的联合分布进行建模,能够在多种条件下灵活生成与人体、物体和交互相关的3D样本。该方法结合了文本描述和接触图的优势,通过共享的潜在空间实现了更加直观和精确的控制。TriDi不仅能处理复杂的交互场景,还能扩展到未见过的几何形状和场景,展现了强大的泛化能力和多模态生成的潜力,特别是在虚拟现实、增强现实及虚拟人类建模等应用中具有广泛的应用前景。
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
来源:鱼大科技说