摘要:在增强现实(AR)与虚拟现实(VR)领域,高保真全身 Avatar 堪称模糊物理与虚拟世界界限、提供沉浸式体验的核心要素,其应用前景广阔,涵盖远程呈现、虚拟试穿以及沉浸式游戏等诸多方面。
在增强现实(AR)与虚拟现实(VR)领域,高保真全身 Avatar 堪称模糊物理与虚拟世界界限、提供沉浸式体验的核心要素,其应用前景广阔,涵盖远程呈现、虚拟试穿以及沉浸式游戏等诸多方面。
然而,当前基于高容量神经网络实现高保真 Avatar 的方法面临严峻挑战,通常需要依赖桌面 GPU 才能达成单个 Avatar 的实时性能。在 VR 一体机这类移动设备上,由于内存和计算带宽的限制,实现 Avatar 的动画与渲染困难重重。
在此背景下,Meta 团队开展了深入研究,并提出 SqueezeMe 这一创新框架。这一简单且高效的框架,成功将高保真 3D 高斯 Avatar 转化为轻量级表示形式,使得移动设备能够轻松实现Avatar的动画与计算渲染。
团队在研究过程中发现,从神经网络解码姿势相关的高斯属性会带来不可忽视的内存和计算开销。受计算机图形学中广泛应用的混合形状和线性姿态校正启发,研究人员巧妙地将神经网络学习的姿态校正提取到线性层,有效解决了这一问题。此外,通过让邻近高斯函数共享校正量,进一步减少了参数数量。
将这些创新方法与基于Vulkan的自定义管道相结合,Meta 团队取得了重大突破——首次在 Meta Quest 3 上实现了 3 个高斯 Avatar 的实时同步动画和渲染,帧率高达 72 FPS。这一成果为 Avatar 在移动设备上的广泛应用奠定了坚实基础。
在具体技术实现上,Meta 团队受计算机图形学中姿态相关线性校正的启发,计算从姿态参数到 3D 高斯的几何与外观参数(包括旋转、位移、尺度和球谐系数)的线性映射。首先,利用大容量卷积神经网络训练一个在UV贴图定义姿态相关校正参数的 3D 高斯 Avatar,该模型仅使用 5 倍更少的高斯点,就能达到与最先进高斯 Avatar 方法相当的性能。接着,提取关键帧及其关联的高斯参数,确保覆盖各种姿态的均匀性。然后,对关联的姿态参数到目标校正量进行线性回归求解。
尽管线性提炼简化了解码器的计算,但线性矩阵的规模依然较大,给移动计算带来不小的内存开销。团队通过深入观察发现,静态高斯参数需要保留高频信号以实现高保真效果,而姿态相关校正量往往是低频的。基于这一关键洞察,他们让 UV 贴图布局相邻的高斯点之间共享校正量,成功将所需内存减少约 16 倍,同时最大程度降低了对视觉保真度和高频人物特定细节的影响。
在推理过程中,使用基于线性模型计算的参数渲染高斯点,并采用基于 Vulkan 的自定义渲染器。实验结果表明,该方法允许在 Meta Quest 头显上以实时帧率(72 FPS)对最多 3 个全身 Avatar 进行动画和渲染,且质量下降微乎其微。
不过,这项技术目前也存在一些限制。头像数据需通过传统捕捉阵列采集,这些设施配备超过 100 个摄像头以及数百盏照明灯,造价高昂。此外,该装置采用平面光照,暂不支持光照调整。
目前,SqueezeMe 技术的具体应用落地时间尚未明确。但可以预见的是,一旦这项技术成熟并广泛应用,将为 AR/VR 领域带来革命性变化,推动高保真 Avatar 在移动设备上的普及,让用户随时随地享受沉浸式的虚拟体验。
来源:新浪VR一点号