摘要:本届论道以“视听破圈 智联无界”为主题,围绕产业破圈展开积极探讨。10月30日下午的IPTV价值高峰论坛上,新国脉数字文化股份有限公司 数字内容部科技研发经理 冯振华发表了题为《国脉文化实时3D技术能力赋能IPTV创新发展》的主题演讲。
2025年10月30日-31日,流媒体网主办的「天津论道暨第30届智能视听与科技创新产业论坛」在天津隆重举行。
本届论道以“视听破圈 智联无界”为主题,围绕产业破圈展开积极探讨。10月30日下午的IPTV价值高峰论坛上,新国脉数字文化股份有限公司 数字内容部科技研发经理 冯振华发表了题为《国脉文化实时3D技术能力赋能IPTV创新发展》的主题演讲。
以下是演讲全文:
各位老师、各位同仁,大家好!我是来自中国电信下属新国脉数字文化有限公司的代表。新国脉数字文化有限公司主要为中国电信提供大小屏内容运营服务,在大屏运营领域积累了丰富经验与深入思考。接下来,我将为大家介绍我们正在探索的3D技术能力。
传统3D应用的痛点与破局方向
3D技术的核心原理源于人眼的双目视差。人类双眼间距约65毫米,观看物体时会捕捉到略有差异的两个图像,经大脑合成后形成立体画面。这一原理早在 1838 年被发现后,便迅速催生了相关产业。
早期以立体镜为主要呈现形式,随着技术迭代,1950年代出现红蓝分色、偏振被动式3D呈现方式;近年又发展出主动快门式、柱状光栅裸眼3D等技术。最新的光场显示技术,本质上都是通过在时间或空间上分离画面,分别传递给双眼,最终形成立体视觉效果。
传统3D视频的拍摄制作依赖专业双目相机,通过调节光轴间距与方向形成视差参数。但这种方式存在明显制约:一是需要专业团队与设备,二是拍摄后参数无法调整。
这就导致两个核心问题:一方面,专业门槛与高投入造成3D内容匮乏,2010 年《阿凡达》带动的3D热潮后,国内外相关内容产量大幅下降;另一方面,3D播放对硬件要求较高,无论是戴眼镜还是裸眼3D设备,都未实现广泛普及,进一步限制了3D场景的落地。
针对这些痛点,借助 AI技术找到破局路径:通过AI将现有2D片源转成3D,转码过程中可灵活调节光轴间距、方向等参数,最大化适配人体视觉舒适感;同时依托用户家庭已有的大屏电视,搭配定制机顶盒与主动式快门眼镜,打通端到端播放链路,降低3D体验的硬件门槛。
核心技术方案:云端转码与端侧适配
我司的转码方案支持直播流、点播流的2D实时转3D,转码后的视频格式兼容电视机、手机、VR/AR 眼镜等各类3D播放设备。
核心技术包含两大关键环节:
深度估计:通过AI算法估算画面中各像素点的深度值,并引入轻量化时间注意力机制,实现深度值的时间平滑;
视角合成:融合扩散模型并优化调整,同时采用专项加速技术提升效率,解决传统算法空洞填补不自然、大模型运算速度慢的问题。
端侧解决方案以用户家庭大屏电视为核心:只要电视具备120赫兹高刷新率和快速液晶响应速度,即可满足播放基础条件。
机顶盒承担核心处理任务,将视频画面分离为左右眼画面并交替播放,通过蓝牙同步协议与主动式快门眼镜联动,精准控制眼镜快门开关,配合视觉残留效应形成立体效果;
交互设计上,遥控器增设3D专属按键,用户点击后可进入引导页面,完成眼镜与电视帧序列的校准(左眼对应红画面、右眼对应蓝画面),校准后即可通过3D专区观看内容。目前该方案已完成实验室验证,电视端呈现效果良好。
未来技术拓展与场景延伸
后续将重点推进模型小型化,降低算力消耗,未来可嵌入端侧设备,实现毫秒级无延迟体验,尤其适配游戏等对实时性要求高的场景。随着端侧算力普及,模型端侧部署将成为趋势,为更多元营场景赋能。
直播转码服务:将云端3D转码作为PaaS能力对外开放,为演唱会、体育赛事等高价值场景提供3D直播服务,兼容各类3D播放设备;
云端渲染赋能:在云端游戏、交互式场景的视频流下发前完成3D转换,无需制作端额外适配,丰富用户体验场景;
视频增强应用:将深度估计、平滑技术单独拆分,为编码器或电视终端提供支持,可根据景深强化近景、弱化远景,在平面画面中呈现类3D效果;同时可应用于老片修复,通过时间插帧、平滑处理提升视频质量。
以上就是在3D技术领域的探索与实践,我的介绍到此结束,谢谢大家!
来源:流媒体网
