NeurIPS 2025 | 让3D视频像2D一样流畅!4DGCPro,实现高清视频流

B站影视 日本电影 2025-09-26 17:46 1

摘要:大家有没有想过,未来的某一天,看视频不再是看一个“平面”,而是可以自由旋转视角的“立体”世界?这就是体积视频(Volumetric Video)的魅力,它能为人们带来前所未有的沉浸感。但理想很丰满,现实却很骨感——体积视频的数据量实在是太大了!想在手机上像刷短

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

大家有没有想过,未来的某一天,看视频不再是看一个“平面”,而是可以自由旋转视角的“立体”世界?这就是体积视频(Volumetric Video)的魅力,它能为人们带来前所未有的沉浸感。但理想很丰满,现实却很骨感——体积视频的数据量实在是太大了!想在手机上像刷短视频一样流畅地看3D视频,在以前几乎是不可能完成的任务。

现有的技术要么是把视频压成一个“死”文件,网速不好就只能干瞪眼,没法像2D视频那样自适应地切换清晰度;要么是解码和渲染太复杂,手机、平板这点计算能力根本带不动,谈何实时?

不过,这个“不可能”现在正被打破!来自上海交通大学、上海人工智能实验室、天翼视讯和上海科技大学的研究者们,在被NeurIPS 2025接收的论文中,提出了一个名为 4DGCPro 的全新压缩框架。它 首次在移动设备上实现了高质量体积视频的实时解码和渲染,让“像看2D视频一样看3D视频”的体验成为了可能!

论文标题: 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming作者团队: Zihan Zheng, Zhenlong Wu, Houqiang Zhong, Yuan Tian, Ning Cao, Lan Xu, Jiangchao Yao, Xiaoyun Zhang, Qiang Hu, Wenjun Zhang所属机构: 上海交通大学, 上海人工智能实验室, 天翼视联, 上海科技大学论文地址: https://arxiv.org/abs/2509.17513项目主页: https://mediax-sjtu.github.io/4DGCPro代码地址: https://github.com/mediax-sjtu/4DGCPro录用信息: NeurIPS 2025

4DGCPro成功的秘诀,在于它引入了“渐进式”的思想,这和平时加载网页图片的体验很像:先显示一个模糊的轮廓,然后图片细节逐渐清晰。4DGCPro把这个想法用到了体积视频上。

如上图所示,它把一个完整的体积视频压缩成一个 单一的、分层的比特流。当你的设备开始播放时:

先加载基础层:只用很少的数据(比如0.1MB),就能快速解码和渲染出一个基础画质的3D视频(比如左图的30.04dB)。再加载增强层:随着网络数据不断传来,模型会加载后续的增强层,每一层都会在前一层的基础上增加细节,提升画质(比如再加0.1MB数据,画质提升到31.18dB)。

这种设计带来了巨大的灵活性。网络好,就多加载几层,看超清3D;网络差,就只加载基础层,保证流畅不卡顿。而且这一切都在一个模型、一个码流里实现,无缝切换!

为了实现上述目标,4DGCPro框架主要包含了三大关键技术。

这是实现“渐进式”的基础。它没有把场景中的所有4D高斯点(一种高效的3D场景表示方法)一视同仁,而是根据人眼感知的重要性,把它们分成了不同的层级。基础层包含场景的骨架,增强层则不断添加细节。这种分层表示法,是专门为压缩和流媒体而设计的。

视频是有时间维度的,相邻帧之间通常变化不大。为了高效压缩,不能每一帧都存完整的。4DGCPro的做法是,只存少数“关键帧”,然后预测中间帧的运动。它将场景中的高斯“打包”成组,然后预测每个组的运动。更聪明的是,这个“组”是动态变化的,模型会根据物体的运动情况自适应地调整分组策略,从而在保证运动一致性的同时,最大化地减少时间上的数据冗余。

这是一个“全局最优”的训练策略。模型在训练时,优化的目标不只是“画面好不好看”(失真度),还要考虑“文件大不大”(码率)。通过一种分层的“率失真(Rate-Distortion, RD)”监督方法,模型学会了如何在保证每一层画质的同时,尽可能地节省比特,生成最高效的码流。

4DGCPro不仅在理论上先进,在实际测试中也表现出了碾压级的优势。

这是最令人兴奋的成果。如下表所示,4DGCPro能在普通平板电脑上达到 44FPS 的渲染速度,在桌面端更是高达58FPS。这标志着在移动设备上实时、流畅地观看高质量体积视频,已经从梦想照进现实。

在同等码率(文件大小)下,4DGCPro重建的视频质量(PSNR)远超现有的所有方法。从下面的对比图和表格可以看出,无论是视觉效果还是量化指标,4DGCPro都稳居第一。

在模型大小和计算复杂度上,4DGCPro也展现了极大的优势,为移动端部署提供了便利。

04 总结

小编认为,4DGCPro是体积视频领域的一大步。它通过引入分层表示和渐进式流媒体的概念,并结合高效的运动估计和端到端的压缩优化,成功地将体积视频的观看体验拉到了与熟悉的2D视频相近的水平。这不仅仅是一个技术的突破,更开启了无数新的应用可能性,从沉浸式体育赛事直播、虚拟演唱会,到远程AR/VR会议、在线3D购物,想象空间巨大。

作者也慷慨地公布了项目主页和代码链接,对这个领域感兴趣的朋友们可以去深入了解一下。

当手机上也能流畅看3D视频了,你最想用它来干什么?是想身临其境地看一场偶像的演唱会,还是想把家里的家具先“摆”在AR里看看效果?欢迎在评论区分享你的脑洞!

来源:极市平台

相关推荐