摘要:在数字人这条赛道上,清华深研院(Tsinghua SIGS)和国际数字经济研究院(IDEA)的中国团队,甩出一张王炸:GUAVA。
在数字人这条赛道上,清华深研院(Tsinghua SIGS)和国际数字经济研究院(IDEA)的中国团队,甩出一张王炸:GUAVA。
一张照片,0.1秒后,3D高斯化身(3D Gaussian Avatar)就站在你面前了,在512x512分辨率,实时驱动,帧率飙到50FPS以上。这速度,这效果,这成本,简直是把传统数字人制作流程按在地上摩擦,“还有谁?”
长久以来,构建一个高质量、可驱动的3D数字人,一直是计算机视觉领域的“圣杯”,也是个“苦活累活”。要么得架一堆摄像机搞多视角拍摄,要么就得拿一段视频慢慢“喂”给模型去训练,没个把小时根本下不来。更别提那些基于SMPLX(富有表现力的人体模型)的方法,身体是能动了,但脸跟“面瘫”似的,手也跟“鸡爪”一样,而且抖动厉害,根本没法看。
效果到底有多炸?
与其他算法比较:
用数据说话
表1:与2D生成方法的定量对比(自重现任务)
FPS,52帧对0.2帧,简直是贴脸开大。
表2:与3D重建方法的定量对比(自重现任务)
PSNR、SSIM、LPIPS,这些画质指标GUAVA全第一。重建速度≈98毫秒,一眨眼的功夫。对比一下:ExAvatar要2.4小时,GaussianAvatar要1.3小时,GART好点,也要7分钟。GUAVA?0.1秒?这哪是技术迭代,这是降维打击。
表3:跨重现任务的身份一致性(ID Preservation Score, IPS)
最狠的是身份一致性IPS,0.5554,是第二名Champ的1.5倍还多。
GUAVA凭什么?
GUAVA单图输入、秒级重建、实时驱动、表情自然,画面流畅,一样都没少。
它的秘密武器,藏在两个名字里:EHM模型和3D高斯泼溅(3D Gaussian Splatting)。前者是“灵魂注入器”,后者是“性能加速器”,强强联手,朴实无华。
先说EHM。
SMPLX不是不行,但它的脸是“兼职”的,表情空间是在全身扫描数据上硬凑的,细节全丢了。GUAVA团队直接掀桌:不跟你玩缝合了,我上FLAME!
FLAME是谁?人脸建模界的顶流,专攻微表情,连你嘴角抽一下它都能给你还原出来。于是,EHM诞生了——SMPLX的身体骨架 + FLAME的顶级脸蛋 + 精准手部控制。论文里原话讲得明白:“SMPLX虽然整合了FLAME,但其表情空间是在全身扫描数据上重新训练的,可能忽略了面部细节。” 所以,直接换头,问题解决。这操作,堪称数字人界的“换头手术”,效果拔群。
再说3D高斯泼溅。
NeRF(神经辐射场)是画质天花板,但渲染慢得像树懒喝下午茶。GUAVA选了条野路子:不用神经网络查光线,直接把场景拆成几百万个带颜色、位置、大小的3D高斯球,往屏幕上一“泼”,按深度排个序,混一混,图就成了。速度快到飞起,实时50帧轻轻松松。怎么从一张图里变出这些高斯球?靠“逆纹理映射”和“投影采样”,把2D像素“贴”到3D模板上,再加个轻量级“神经渲染器”修修边角,齐活。
GUAVA用了双分支架构,一个叫“模板高斯分支”,靠EHM顶点采样图像特征,MLP解码出高斯属性;另一个叫“UV高斯分支”,用逆纹理映射把特征图怼到UV空间,StyleUNet解码器给每个像素配一个高斯球,专治模板覆盖不到的细节死角。两路高斯一合并,Ubody Gaussians成型。动画时,EHM一变形,高斯球跟着动,泼溅一渲染,神经精炼器一润色,丝滑得像德芙。
这玩意儿能干嘛?
自媒体狂喜:一张人物图,0.1秒变可定制角色,工期砍半,预算省爆。
直播主播笑醒:上传自拍,秒变虚拟形象,表情包自由切换,打赏收到手软。
电商老板拍大腿:千人千面虚拟模特,7x24小时在线试衣,转化率拉满。
教育也别闲着:虚拟老师不累,沉浸式教学培训,安排!
更多应用场景正在你的想象力中酝酿。。。
清华深研院+IDEA研究院,没靠PPT融资,没靠元宇宙炒概念,实打实一篇ICCV 2025顶会论文,代码开源,数据说话,把全球同行卷到头皮发麻。
参考资料:
https://arxiv.org/pdf/2505.03351
https://github.com/Pixel-Talk/GUAVA
https://eastbeanzhang.github.io/GUAVA/
来源:算泥社区