天津论道|易视腾侯立民:电视大屏的觉醒时刻

B站影视 韩国电影 2025-10-30 15:08 1

摘要:本届论道以“视听破圈 智联无界”为主题,围绕产业破圈展开积极探讨。10月30日上午的主论坛上,易视腾科技股份有限公司 董事长 侯立民发表了题为《电视大屏的觉醒时刻》的主题演讲。

2025年10月30日-31日,流媒体网主办的「天津论道暨第30届智能视听与科技创新产业论坛」在天津隆重举行。

本届论道以“视听破圈 智联无界”为主题,围绕产业破圈展开积极探讨。10月30日上午的主论坛上,易视腾科技股份有限公司 董事长 侯立民发表了题为《电视大屏的觉醒时刻》的主题演讲。

以下是演讲全文:

谢谢包包、灯少,以及在座的各位领导、同仁、朋友们。非常高兴能回到阔别多届的论道会场,这次我给大家汇报的标题叫《电视大屏的觉醒时刻》。

全屋都在“觉醒”,电视要有AI

AI 从 2022 年底 ChatGPT 破圈,到国内 DeepSeek 实现突破,这几年一直是全社会、全行业热议的话题。就像刚才包包谈到的,一项技术从诞生到真正走向应用,目前正处于艰难的积累和等待突破阶段。

接下来,我汇报一下我们尝试将大屏体验与AI结合,突破大屏应用障碍所做的探索。大家都知道,从论道活动开始,我们在OTT环节的实践就比较多。随着行业发展,我们看到OTT和IPTV持续融合,包括双治理、上播控等概念的提出,各种业态不断纠合、融合并落地到本地。

在过去几年里,一方面易视腾一直在做尝试,另一方面我们与优地网络前段时间实现了完整的全资合并。易视腾和优地现在是一个整体,我们试图从专网角度,在IPTV环境和专网大屏电视领域,全力为大家做好服务。

前段时间我发现,家里的扫地机器人不仅能说话,还能自动跑。有一次我出去旅行,担心家里的猫,最后就是靠派扫地机器人出去找到猫,看看它们的情况。现在家里有很多“眼睛”和“耳朵”,还有很多能回应你说话的小 AI,从扫地机器人到风扇,哪怕买300元的风扇,都能跟它对话。还有毛茸茸的玩具、陪伴机器人,所有这些东西都在“开口说话”、都在回应。

对于我们做大屏业务的人来说,虽然有嘉宾提到大屏是服务中心,是家庭的服务聚合点和入口,但我觉得,到目前为止,在电视上绝大部分行为还是看 CCTV1、换台、找刘德华的电影,一句话起到的只是快捷指令的作用,在我看来这并没有实现真正的“觉醒”。

我们一直在思考,如何让大屏有效“开口说话”,实现与人的持续、有意义的对话交互。海尔的嘉宾和酷开的郭院长都谈到了他们的实践,从易视腾的角度,我们一直在电视产品、交互和实际应用服务领域,啃最难的“骨头”。

全场景AI辅助

先从我们最核心的影视服务说起。产品同学归纳过,不管是 IPTV 还是 OTT,核心场景就是找片子、看片子、买套餐,现在或许还可以加上 AI 聊天。在找节目这个场景里,传统电视交互,包括机顶盒,从早期硬件发展到语音输入、语音遥控器后,有一定进步,但也仅停留在语音识别有少许修正、关键词搜索的程度,仅此而已。找不到就是找不到,如果用户不清楚片名,用关键词大概率也找不到。一个片子找不到后,用户的思路就无法延续。

我们想到“花式搜索”,通过各种姿势搜索。AI 给我们带来了全方位、人性化、可扩展、可联网、可关联的搜索方式。我们希望在关联界面里,重构一种自然的文化,让用户无需学习,通过对话辅助,就能解决今天想看什么,这个片子没有,我还能看哪个片子;这个节目没上线,我还有别的什么可以看等问题。从交互频次和 UI 来看,搜索是电视交互的主要用户聚集点。

另外一点是播放器。用户在看片子的过程中,从详情页了解片子信息,以前通常就是片子的介绍、演员、导演等内容。比如一部片子《以法之名》,最近大家都很关心、热议。那它讲什么内容,什么题材,里面的张译是什么角色,每一集热播到哪里,情节发展到哪里,在详情页环节到后面的播放器环节,我们现在几乎可以做到对剧情演进、人物背景、出场时间、前面故事等进行深度分析。

当我们看到片名和导演时,对片子的理解很有限,用户能聊的内容也很少。只有用 AI 全面、深度地理解片子,我们才能和用户一起好好看电视。当我们不知道用户对这个片子的兴趣点、喜欢什么、关心什么时,就没话题可聊。所以在我们的 AI 播放器里,除了一般的快进到多少秒、快进 5 分钟等功能外,我们还会提供情节摘要、关于剧情的快进方式。现在很多年轻人倍速看片,声音听不清,其实很累。我们现在对每一段情节、故事的演进都有辅助性摘要,用户想聊、想快进、想跳过某个情节看下一个内容,都可以通过对谈或 UI 按键等方式实现。

在看片过程中,要是忘了哪个人物在哪一集出场,比如看《以法之名》时,我记得张译的老丈人好像是个领导,但一看演员不知道是谁,试着问一下在哪一集、几分钟、谁出场、什么关系等问题,当这些都能得到解答时,我们就会发现 AI 陪我看电视,和家人陪我看电视、一起探讨一部剧的感觉很相近,能帮助我们更好地融入剧情。

所以 AI 看片是我们正在尝试的进步方向。目前我们对热播剧、同步播出的热播剧做深度内容理解,辅助 AI 看片。现在基本能做到每天有几十小时的生产量,后续会增加算力和资源。我们希望全网的热播内容都能实时得到深入分析理解,从而支撑 AI 看片,辅助用户持续关注想关注的内容,获得更深度的体验。

在我们专网市场,不管是商业模式转化,还是涉及买片、买套餐、单片点播等情况,或者在有些环境里,比如有针对腰疼患者的会员融合包套餐,我们现在都在用 AI,尤其在运营商市场环境里,辅助其完成影视购买过程中的客服工作。比如买哪个套餐更合适,买这部片子是不是就能看所有相关内容等,现在我们完全用智能体来辅助提供这样的服务。

后面要说的是“聊”的部分。聊剧情、聊人物、聊背景,聊到哪就能跳转到刚才提到的深度镜头级检索和定位,这也是我们现在正在做的重要环节。从页面模板到生成式 UI,我们在尝试定制化服务。不管是 IPTV 还是 OTT,多年来大家习惯的都是信息流、瀑布流逻辑,或者是货架式海报陈列。早期技术结构都有所谓的 APP 模板,每个页面用户固定从哪里跳到哪里,有哪些功能,承载哪些内容,这是传统电视服务的基本结构。

以渐进式方式将AI能力融入原有电视产品的UI体验

当AI渗透到电视应用中时,我们正尝试以渐进式方式,将AI能力融入原有电视产品的UI体验。目前的实践思路是,通过局部上线的案例向大家展示:尽量保留原有模板,在左侧原关注焦点位置不变的前提下,将AI对话区设置在右侧。这种左右布局旨在逐步培养用户习惯,同时确保传统操作体验不受影响。

在传统体验基础上,我们叠加了多轮可滚动的对话列表——类似豆包、ChatGPT、元宝等工具的上下文关联模式,能辅助用户持续交互。右侧对话区无需占用过多空间,仅需保留可查看的上下轮对话提示,核心作用是配合左侧UI工作区为用户提供内容。比如用户回家首次打开机顶盒或电视时,自然说出“今天有什么可看的?”,AI会结合用户过往观看记录、历史对话、长期与短期兴趣偏好及对话上下文,实时生成个性化内容推荐。

推荐内容涵盖新闻资讯、体育赛事进展(如苏超)、正在追更的剧集更新等,实现从传统固定式UI模板到AI算法驱动的生成式内容呈现的转变。左侧界面会形成贴合用户兴趣的生成式计划,跟踪兴趣线索;右侧则归纳收视日程,本质上与个性化播单、AI专属频道等概念异曲同工。

电视收视行为本质反映着人的生活规律。传统电视台的编导会根据主流用户生活习惯编排节目,比如早7点、中午、晚5点、晚8点的播出内容,但单一频道难以适配所有用户需求。在AI与数字化驱动的环境下,我们能感知到谁在什么时间打开电视,通过学习、分析和挖掘用户行为,或直接接收用户指令,生成个性化、动态且实时的播单或AI频道。

相比以往笨拙的订阅操作(如设置7:30观看某节目),自然多轮语义理解让交互更便捷,能逐步构建对用户生活习惯的深入细致跟踪,让AI频道和个人电视台更具实用性。这种模式将从根本上改变当前线性的电视播出形态,也为长视频和电视行业提供了超越抖音式“信息茧房”算法的机会。

关于对话本身,AI能力的真正跨越,很大程度上源于大模型带来的人机交互变革——语言能力、逻辑能力和理解能力的提升。但目前包括GPT在内的多数大模型,仍带有较强的“命令行色彩”:用户说一句,模型回复一大段,用户需预先构思下一条指令,交互不够实时、自然,类似早期编程的命令行模式。

如今,无论是ChatGPT还是豆包等APP,都在向“去命令行化”演进,核心是从单向指令式对话,转向自然、全双工、实时的交互。用户无需预先明确需求,可随意表达想法——比如“今天累了,想看点节目”,想到哪说到哪,随时打断对话。这就需要构建两方面能力:一是基于多轮对话的意图体系与对话能力, 二是全双工对话模式。

全双工对话意味着用户无需按压语音遥控器,说完再松手,而是可以持续交流、随时打断,还能通过情绪表达、声情并茂的表述传递想法。我们希望让电视和机顶盒摆脱语音遥控器的束缚,打造陪伴式、拟人化的全双工对话环境:用户坐在沙发上或在电视前走动时,可随时发起交流。

但这背后面临诸多技术挑战:多轮意图的跟踪与修正存在实践难题;全双工、开放场景下的远场对话,在声学处理、语音编解码、实时通讯等方面也有很高要求。目前我们的线上产品尚未实现真正的全双工,但已在智能体中植入多轮意图引导、澄清、启发等功能,实际效果显著——用户对话失败率大幅下降。

传统语音遥控器ASR语音识别失败率居高不下,常见原因包括口音、方言、别名差异及用户表达模糊(比如“江苏网的镇江台经视频道”这类表述),导致用户查不到内容就放弃操作。而通过“你说的是不是这个意思?”“有几个可能的频道,你指的是哪一个?”等澄清功能,能帮助用户建立与电视对话的体验、信心和信任感。因此,降低对话失败率、提升对话量与频次,是行业未来的核心努力方向。

现在咱们的语音遥控器,不管是电视机自带的还是机顶盒配套的,都属于刚才提到的近场、按键唤醒式设备。用户想跟电视对话,得先从茶几或沙发上找到遥控器,操作不够便捷。

建立全双工在线连接

我们计划推出一款原厂设备,核心是帮用户实现随时通话、随时对话,建立全双工在线连接。之前聊到IPTV一体机的唤醒逻辑时,吴总提到可以通过手机触发,但手机需要掏出来、打开APP,操作步骤依然繁琐。我们的目标是让用户直接开口对话,就能唤醒APP服务和机顶盒。

比如早上用户只有15分钟在家,想快速看新闻却没耐心开电视、找频道,直接说“早上发生了什么?川普又说了什么?”,设备就能自动开机、唤醒系统,并直接回放或播放相关内容——这正是我们追求的使用体验。

这款原厂设备名叫“爱小宝”,是一款AI低功耗蓝牙音响。把它放在电视机前或茶几上,就能与APP、机顶盒以及植入式一体机软件实现对话交互;拿到卧室,还能用来控制空调、风扇等家电。它无需依赖手机,即便不打开手机,用户也能随时开启AI对话,真正实现全场景便捷交互。

这款设备定价仅百元级,性价比很高:在家中放两个可形成环绕声,放多个则能打造全屋植入式音响环境。从这个角度来说,它也是普及AI对话的一种有效方式。

此前,内容分析中的高光时刻提取多依赖人工编辑完成。在AI技术落地后,我们结合传统大模型能力与多模态方法,实现了深度内容理解。目前已达成1:2时长的单卡生产量,后续将通过提升算力,实现直播节目、日常更新节目的AI实时打点标注。针对百万小时级的片库,我们也已启动优先级处理与检索优化,逐步实现镜头级的内容理解与定位。

基于镜头级理解,我们构建了剧情知识图谱。以电视剧《以法之名》为例,剧中所有人物关系演变、关键纠葛的发生场景与时间线等信息,均已纳入知识图谱体系。借助基础大模型对该体系的深度解读,能够为用户提供前文提及的深度对话能力,这也是相关功能的核心技术支撑。

传统IPTV平台的CMS系统,仅能实现节目资源的整合与上架,无法精准识别节目内核、情节脉络及深度演变逻辑。而深度内容理解能力的补充,正逐步完善这一短板。以下为多模态模型的技术架构相关说明:镜头级识别环节中,后台系统会对平均时长30-120秒的单个镜头进行解析,明确镜头中的人物、场景、核心事件,以及该镜头与整体剧情的关联,形成完整的内容逻辑链。

需要说明的是,“天台打斗”“风浪越大鱼越大”等具体内容检索场景,仅在 demo演示中出现。后续我们希望,当用户追更某部剧集时,无论是剧集更新后的热门梗解读,还是关键剧情同步,都能通过弹幕评论、实时陪聊等形式触达用户,而这一切都将基于上述深度内容理解系统实现。因此,我们认为UM(深度内容理解)是未来电视播出平台的核心底层基础能力。

AI搜推平台

另一个重点是AI搜推平台——这一能力类似字节等公司的核心技术优势。未来,无论是二级平台、新媒体,还是各类大屏电视端播出平台,其核心底层能力将集中于两大板块:一是搜推平台能力,二是大模型及Agent(智能体)能力。

目前我们在后台平台搭建的Agent(智能体)架构,虽行业内表述不同,但核心是一套智能体互联体系——不同任务将由专属智能体提供针对性服务。IPTV机顶盒、电视机、中频设备乃至语音交互音箱,均可作为意图入口,通过识别用户需求、规划任务流程,协同各类服务体系完成响应。从这一角度而言,Agent平台将助力现有IPTV平台实现从“看电视”到“用电视”的整体技术能力升级。关于智能体互联,刚才各位也有所提及,考虑到时间有限,此处不再展开。回顾互联网发展历程,从早期的网站模式,到后来的APP模式,如今各类服务正逐步向智能体形态演进:从网站、APP服务人,升级为智能体服务人、智能体之间相互服务。

另一维度,在内容生产与聚合层面,我们已在多个二级平台及OTT分省落地项目中,为平台方、播出方搭建聚合平台。平台功能已从传统的长视频与直播频道聚合,拓展至中短视频聚合;近一年来,我们开始大规模引入AIGC辅助能力,相关建设工作正逐步推进。

数据智能

最后谈谈数据智能——这是AI在整个播出体系中的另一重要应用场景。通过深度数据驱动的运营模式,我们能够更清晰地掌握运营现状:不同人群在不同时段的行为变化、对收视表现的影响,以及对收入的关联作用等。

接下来是大家真正关心的话题:无论是破圈增长、增收创收,还是整改双播控合规、扩大用户规模,亦或是与运营商合作中面临的博弈,若仅将目光聚焦于前向收入——正如吴总所言,包括收视费、增值业务运营费等,本质上都属于百亿至数百亿规模的红海市场。真正的增长空间,在于万亿级的 “用电视” 场景。

“看电视”与“用电视”并非割裂关系:用户在观看节目的过程中,才会自然产生服务需求、消费意愿,或是对本地生活服务的诉求。唯有依托现有流量与入口优势,通过日常与用户的对话互动,深度理解用户生活习惯,才能将各类服务、消费机会、实用功能,通过大屏、泛屏、闺蜜机、中屏等多终端,精准触达最终用户。

未来,各类场景中都将遍布搭载AI的智能屏幕,用户可随时通过语音交互连接设备。而精准判断用户何时与哪块屏幕连接、观看了何种内容、可能需要哪些服务或对哪些商品感兴趣,正是我们撬动万亿级市场的核心场景。

万亿级市场并非遥不可及:抖音一年的收入已达万亿规模(其GMV体量更甚),而这一成绩,既虹吸了传统媒体(尤其是电视台)的大量广告份额,也创造了全新的市场增量,印证了算法驱动、数据驱动的高度聚合型自媒体平台,完全能够承载万亿级市场体量。

反观当前IPTV与OTT行业,无论是基础收视费、增值内容收入,还是与运营商合作获得的收益,整体市场规模仅数百亿。在红海市场中,我们正面临增长下滑与竞争挤压的双重压力。因此,包括我们自身、运营商、电视机厂家在内的所有大屏行业同仁,若想实现突破,必须将目光投向万亿级增量市场——依托用户观看节目、日常陪伴的场景优势,通过持续的交互触达,将市场上的各类商品、服务、生意、权益,与我们的流量和触点有效结合,构建全新的商业生态。

我认为,行业真正的出路、破圈的关键与觉醒的核心,在于跳出电视行业的内卷,迈向万亿级市场的广阔蓝海,展开全新的竞争与探索。

谢谢大家!

来源:流媒体网

相关推荐