火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

B站影视 内地电影 2025-09-11 17:45 2

摘要:近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIG

近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于2025年8月10日至8月14日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。

图1 论文主页

打破技术瓶颈:从实验室走向移动端的实时自由视角革命

自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的LiveGS 系统通过三大创新,首次实现了“端到端实时 FVV 直播”的工程化落地:

三大技术突破,重新定义移动端 FVV 标准

1. 实时 3D 高斯表示:告别离线优化,毫秒级重建逼真人体模型

传统 3D 高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS 创新性采用前馈神经网络架构,结合 Sobel 特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少70%,实现无需逐场景优化的实时 3D 重建。实验显示,系统可在 A10显卡上以超过 30 FPS 的帧率运行,延迟控制在1秒以内。

图2 LiveGS 前馈神经网络架构图

2. 低损耗压缩传输:500倍压缩率下 PSNR 损失<3dB,适配标准视频链路

LiveGS 将 3D 高斯属性(尺度、不透明度、深度等)映射到 2D 视频平面,采用 YUV 4:2:0 格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和 RGB 区域优先编码),在实现500倍压缩的同时,将画质损失控制在 PSNR 3dB 以内,完美适配现有视频传输链路,带宽需求低于20Mbps。

图3 LiveGS 编码传输示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降70%

针对移动端算力限制,LiveGS 提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留1/3像素,渲染高斯数量减少70%。结合混合渲染技术,在 iPhone 15 等设备上实现了 30FPS 流畅的视角旋转、缩放等交互操作,推动 FVV 从 PC 端走向大众移动端。

抖音“裸眼3D”直播

同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼 3D”直播,带给用户全新的直播观看体验!

经过云端 AI 大模型处理,2D 直播可以被实时处理为带有 3D 信息的直播流,包含深度等 3D 空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行 3D 重建;用户通过晃动手机,可将 3D 内容实时渲染至不同的观看视角,从而实现“裸眼 3D”效果。

从技术创新到场景落地:开启沉浸式互动新体验

LiveGS 的突破不仅是算法层面的革新,更构建了“实时采集 - 云端重建 - 压缩传输 - 移动端渲染”的完整技术闭环解决方案,其应用场景覆盖:

体育赛事直播:用户可自由切换视角,360°解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态;

虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验;

远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感;

电商直播:用户可360°查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。

图4 LivsGS 直播系统架构示意图

附录

火山引擎多媒体实验室的前沿探索

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

关于火山引擎

火山引擎是字节跳动旗下云和AI服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业AI转型,激发增长潜能。

简历投递或者项目合作可联系:

jiaoshaohui@bytedance.com

来源:字节跳动技术团队

相关推荐