融媒技术 | 大模型介入视听传播:数据、场景与准则

B站影视 日本电影 2025-03-19 04:36 1

摘要:本文通过分析媒体视听大模型数据的获取,进一步分析媒体视听传播的数据算法,探讨大模型驱动数据新闻、赋能短视频创作、催生数字员工等方面的场景应用,并探讨大模型赋能媒体视听的风险控制及遵循的伦理准则。

导读:本文通过分析媒体视听大模型数据的获取,进一步分析媒体视听传播的数据算法,探讨大模型驱动数据新闻、赋能短视频创作、催生数字员工等方面的场景应用,并探讨大模型赋能媒体视听的风险控制及遵循的伦理准则。

大模型是指具有庞大参数规模和复杂系统的机器学习模型,参数量目前已经达到数百万至数千亿,通过海量的数据和强大的算力进行训练,形成具有逻辑推理和分析能力的人工智能,实现对相关任务的高效处理。大模型广泛应用于政务、金融、医疗、教育、智慧城市等多个领域。在政务领域,以政务问答、文件生成等场景为主;在金融领域,以智能客服、售前助理等场景为主;在医疗领域,以医疗文书生成、智能医药问答等场景为主;在文化教育领域,以内容润色、内容纠错等场景为主。目前,上述应用场景在所属领域的生产运营流程中,大都属于边缘场景,不涉及核心的环节,而媒体视听大模型已经突破边缘场景的应用,向核心应用场景深耕。

一、大模型资源数据

大模型不只是简单的规模庞大,还需要在资源数据、数据算法等方面不断做出调整和优化。由于海量数据的存在和可触达,大模型的参数量不断攀升,数据为大模型的发展提供了强有力的计算底座,这些数据形态多种多样,包括文本、图像、视频、音频等非结构化数据。对于介入媒体视听领域的人工智能大模型,为了提高其表达能力,充分发挥大模型的潜力,需要大量的资源数据支撑,才能在新闻生产的场景应用方面实现创新。

(一)媒资数据

随着广播电视节目形式的多种多样,其内容也在不断丰富,涉及政治、经济、军事、科技、教育、文化、娱乐、法律等各个领域,播出节目资料中包括大量的文字、图片、图像、声音等各种形式的信息,这些信息我们称之为媒资。媒资中的音视频素材等被称为原始素材,与原始素材描述相关的信息被称为元数据,元数据与原始素材的结合就是媒资内容数据。媒体依靠科技创新,对现有的播出节目进行数字化处理、对节目库中的节目资料进行内容筛选、切条、审核、编目和分类就会得到结构化关系型媒资数据。媒资数据的传统实现需要投入大量的人力进行编目,数据的录入也是比较繁杂的工程,媒资数据的人工实现必将随着技术的迭代更新而发生变化。

新一代媒资数据系统是基于大模型的人工智能媒资数据库,它采用多模态语义,重构了媒资内容的结构化逻辑,智能编目可以自动填充内容描述字段,自动进行数据标注,根据结构化内容自动拆分片段,将媒资的元数据体系重构为可灵活定义和组织的任意实体,可零代码接入各类媒资元数据。对媒资索引进行重构,将基于元数据的索引和基于特征值的向量索引进行整合,采用自然语言搜索替代关键词搜索。新一代媒资数据系统能够像人一样理解媒资内容,使用自然语言进行管理,并且能够完成场景的高清晰度增强、低清晰度重生。对于人工智能媒体视听大模型来说,通过媒体本身获取数据远不能满足需求,还需要获取网络数据。

(二)网络数据

网络数据的来源主要是通过互联网技术手段获取储存于网络中的公开数据。公开数据是未设定访问权限的数据,通过账号密码登录可以获得的数据是半公开数据,而设置了访问权限的数据是非公开数据。对于公开数据,允许大模型进行数据抓取;对于半公开数据,在一定程度上允许大模型进行数据抓取;对于非公开数据,应通过市场化交易获得访问权限后进行数据抓取。

公开数据采取网络爬虫等方式直接抓取收集,收集的媒体数据除了公开的文本、图片、视音频信息以外,还包括有关政务信息如专利、裁判文书、政策文件等信息,公共数据如公共交通、供水、供电、供气等信息,科研属性数据如天气、医疗、地球科学、基础科学等领域的信息。

媒体视听大模型数据收集需遵循法律法规和伦理要求,保证数据来源的真实可靠,收集到的个人隐私数据,应进行去标识化处理。总之,抓取行为要考虑对被抓取方利益是否造成损害,要符合国家安全的要求,保护公众利益和个人权益。同时,定期对人工智能数据的收集、使用、存储和共享进行审查,确保数据的合法性、安全性和可控性。

(三)用户数据

用户数据的收集可以通过自然获取和主动收集两种方式进行。自然获取是通过网站、应用App或服务器的一些功能来获取用户数据,这种自然获取的方法包括记录用户的IP地址、分析Cookies、分析用户访问日志。通过记录用户的IP地址,可以得知他们所在的地理位置;通过分析Cookies,可以了解用户的登录状态、浏览历史等信息数据;通过分析用户日志记录,可以获得用户的浏览器类型、访问时间、访问页面等信息数据。

主动收集是指在用户同意授权的情况下获取用户数据,常用的收集方法有用户注册、问卷调查、社交媒体内容或互动数据上传。通过注册的方法可以收集用户的基本信息,如姓名、性别、电话、邮箱等信息数据;问卷调查是针对特定群体采集数据;用户在社交媒体上发布的内容以及互动内容的上传都可以提供数据。通过分析这些数据,可以了解用户的兴趣爱好、社交关系等信息。在收集用户数据的过程中,应保护用户的隐私权益,充分尊重用户的选择和决定,确保用户数据的安全性,防止数据泄露和滥用。

(四)数据算法

海量的媒体资源数据需要数据算法来进行加工处理。算法是一组基于某种指定计算将输入数据转换为所需输出的编码过程,可以按照用户需求,提供个性化、多样化的信息。大模型的算法是通过对海量信息进行过滤、分类和排序,促进跨越时空的信息流通和交换,塑造媒体信息环境的基本秩序。算法为人们更好地认识外部世界提供了技术支持,节省了获取信息的时间和成本,使得人们更容易形成自我的认知观点。由于人工智能大模型的底层架构中嵌入了算法的技术制式和逻辑,人们在信息获取、社会交往和行为决策中,也都受到不同程度的影响。算法能够引导人们理解世界并影响人们的认知。

随着算法逐渐成为新闻生产与新闻传播的基础,媒体视听机构开展生产与传播的活动出现新特点,表现为算法平台结构性地决定媒体内容的可见性。媒体视听机构,依托平台的个性化推荐算法进行新闻分发的实践,把新闻的真实性、客观性、及时性等新闻价值观编码到算法系统中,策略性地通过算法将价值观嵌入新闻实践。嵌入新闻价值观的背后是新闻控制权的争夺,在开发和设计算法的过程中,拥有话语权的一方,往往可以更充分地实践价值观点。只有将新闻价值纳入算法、将新闻价值观融入算法设计,才能保证媒体视听机构控制权的优先地位。

判断算法是否合乎要求,可依赖算法审计。算法审计会对算法进行客观测评,对黑箱算法的不当逻辑开展系统性检查,为算法的失当提供直接证据。某些个性化算法会不成比例地放大低质量发布者的影响力并扩大它们的受众范围。例如,在西方的一些选举中,会利用算法对选民进行误导,遮蔽或突出特定信息,进而改变选民投票意向,最终干预投票选举。不同于传统的信息战和宣传战,算法通过对信息内容和内容传播进行控制,来达到特定的目的,形成符合自己国家利益的信息框架。因此在国际传播方面,目前世界上很多国家在对算法技术进行创新实践。

二、大模型应用场景

“场景”一词原本是指电影、戏剧中的场面,是一定的时间、空间内发生的任务行动或生活画面。随着媒体的发展变化,场景用于描述媒体的生产过程和传播形态,场景化的生产和传播打破了传统媒体的线性模式,围绕用户的个性化需求,对用户进行精准传播和服务。

(一)大模型驱动数据新闻

在新闻报道场景中,传统的新闻叙事通常采用“以点带面”的叙事方式,开篇引入特定的微观场景或人物故事,再过渡到故事背后的新闻背景和主题,进而对宏大议题进行深入分析,结尾再回到微观的故事与命运维度,打造一种闭环式的叙事结构,达到在故事中阐述道理的叙事目的。对于传统新闻业,新闻记者肩负着发现事实和采集信息的职能,报道活动是一种典型的新闻标记实践。在当今社会,普通人也能够通过自媒体发布信息,甚至影响新闻议程,成为新闻事实的发现者、记录者。而媒体大模型能够依据数据和数据算法在复杂的社会现象中提炼关键事实,在重大事件的报道中体现出比人类更高的敏锐性和判断力。

大模型以数据驱动新闻,通过对数据进行分析与过滤,把数据作为主要的叙事语言,大大提高了新闻报道的准确性和客观性。数据新闻能够提炼碎片化的信息,实现观点的整合并形成特定的舆论话题,通过传播策略和新闻叙事来唤起新闻用户的情绪,感染受众,增强新闻传播效果。数据新闻采用可视化方式呈现,包括信息图表类、时间线类、数据地图类等,形式也从静态可视化向动态可视化发展。例如,2024年2月18日,中央广播电视总台央视新闻客户端发布数据新闻《春节假期人们都去哪玩了?》和《红红火火过春节!这组活力满满的数据有你一份》,采用视频、图片展示、图表植入的数据解读方式,介绍春节假期省内游、跨省游、出境游的占比情况,热门出行目的地,以及南北互跨式旅游的热门新趋势,通过数据的挖掘、筛选和处理,以生动活泼、简洁明了的数据新闻形式呈现春晚、春运、商圈的多层次新闻信息。

(二)大模型赋能短视频新闻

短视频作为一种新兴的媒介形式,可以融合文字、图片和视频等多种新闻素材,直观、立体地展示新闻事件,更生动地展现新闻场景,包含的信息也更加丰富。大模型赋能短视频新闻,能够生成与新闻事件相关的文本内容,这种能力可以应用于短视频新闻的脚本编写,快速生成具有吸引力和信息量的视频内容。大模型通过智能剪辑技术,将多个视频片段进行自动拼接和组合,形成具有连贯性和逻辑性的短视频新闻,根据视频内容自动生成配音和配乐,为短视频新闻增添更多的情感色彩和视听效果,使短视频新闻更具吸引力和感染力,从而提高视频的质量。

大模型的飞速发展正推动“社会视频化”进程迈向新的高度。例如,中央广播电视总台央视新闻客户端推出的特别节目《开局之年“hui”蓝图》,采用虚实结合的短视频新闻叙事方式,由AI主播“央小新”带领观众走进田间地头、走进牛羊牧场,用独特的视角呈现来自“天涯海角”的新种子、来自“天山脚下”的牛羊养殖,使受众了解从田间到舌尖的现代化,获得了良好的传播效果。

(三)大模型催生数字员工

在大模型的加持下,虚拟数字人场景不断演化,形象越来越逼真。通过基于计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术打造,使其成为具有外貌特征、表演能力、交互能力等人类特征的复合体。媒体视听领域出现的数字员工,主要包括数字主播和数字记者。数字主播的生成,是利用大量真人主播的播报素材,对人物的声音、唇形、表情、动作、情感等特征进行联合训练,通过大模型的深度学习以及人工引导优化,来追求模拟真人主播的视听效果。数字主播无需熟悉稿件,只需一份稿件文本,即可无延迟输出视频流。数字主播可以完成播报、访谈、连线等工作,满足丰富立体的表达需要。数字记者的生成,是利用一段时长的记者视频进行“复刻”完成,通过提供立体式、多元化、全景式的互动新闻现场,有效地实现现实世界和虚拟世界的无缝交互。例如,中央广播电视总台央视新闻客户端的手语数字主播,形象亲切自然,气质优雅独特,出现在各类大型体育活动的开幕式、闭幕式的特别节目中,还参与活动期间的新闻播报、赛事直播和现场采访。

(四)大模型增强互动叙事

互动叙事场景是在新闻报道中让受众参与到叙事活动中,以增强沉浸度与娱乐性,使媒体叙事更具可塑性。在数据算法的引导下,用户会不自觉地进入算法的设定,并按照算法铺设的逻辑框架,无意识地认同互动规则本身所推荐的叙事意义,在用户自然融入互动模型的同时,新闻信息的内涵和价值使命落到实处,使人们在不知不觉间内化了信息内容以及相应的观念。例如,在杭州亚运会期间,中央广播电视总台央视新闻客户端推出的《拼在亚运会,趣行山水间》,设置了“富春江”“西湖”“良渚”“钱塘江”四个游戏板块,用户点击不同的板块,即可触发不同的场景。“富春江”板块,可以让受众在虚拟场景中自由地漂流,“西湖”板块注重呈现自然美景,“良渚”板块主要讲述新石器时代晚期的历史文化,进入“钱塘江”板块可以看到潮涌奔腾的景象。这则互动游戏新闻通过对数据空间、交互系统的设计,改写了传统新闻的内容呈现方式,拓宽了互动叙事内容传播的维度。

三、大模型应用场景遵循的准则

大模型的发展和应用,在促进科技进步和传播创新的同时,也会带来一系列的风险、安全、伦理治理方面的问题。因此,在鼓励大模型创新发展的同时,遵循相关的准则显得尤为重要。

(一)新闻真实性准则

大模型无法理解复杂的人类道德与法律准则,可能会生成包含虚假信息的内容,生成的虚假新闻包括虚构的观点、论据、案例,可能会误导不具备相关知识的受众,甚至产生较大的负面社会影响和舆论。大模型生成的内容是通过对大量数据的分析处理、训练学习,是对受众输入内容和数据源的理解和重构。如果数据源存在不准确、虚假问题,就会产生错误的信息。所以,数据源必须准确真实。

如果大模型缺乏对逻辑结构和推理过程的理解,在生成新闻报道时,就会出现不合理的推断和错误的内容,对受众产生误导。所以,虽然大模型在一定程度上能够协助甚至代替人们完成一些工作,但在新闻传播领域,由于对新闻真实性的严格要求,核心的审核环节仍然要以人为主,新闻从业者的专业素养是践行新闻真实性的保障。

(二)个人信息安全准则

在使用大模型的过程中,个人数据安全也面临新的挑战,个人信息是最敏感、最需保护的数据类型,如果保护不当则可能使用户遭受数据透视和隐性控制。个人的基本信息、账号信息、设备信息、社会关系信息和网络行为信息等都十分重要,关系到个人隐私和社会安全,如被不法分子获取,就会产生难以预料的后果。比如,会出现身份被盗用、资金被盗刷,造成个人财产的损失,严重影响社会的安定。所以,大模型对收集的个人信息数据,应该严格监管,要进行有序的碎片化处理,防止“二次加工”,禁止超出范围的标注处理。

(三)作品保护准则

利用大模型创作的作品是针对现有数据进行的抓取、分解、组合,创作的作品是否具有版权,主要看使用者对提示词的选择、安排是否达到独创性标准,技术只是创作工具,自身没有创作目标,大模型工具的力量能否被激发,在多大程度上被激发,取决于人们为它设置的问题、任务与目标。所以,对于在创作作品过程中作出实质性贡献的使用人、对创作的高品质作品应给予合理保护,鼓励人们更多地使用大模型投入创作,这对大模型的使用和推广、对作品质量的提高有着重要的积极作用。

(四)道德算法准则

数据算法介入媒体视听领域带来的道德挑战,主要包括数据算法权威、算法客观性、算法透明度、嵌入代码中的价值观和伦理理念等。算法是新闻生产实践形成的技术载体,算法本身要符合社会责任要求,利用算法生产、分发和推送新闻的过程,应当遵守伦理规范,秉持对社会、用户及其他利益相关者负责任的态度,遵循客观、中立、透明的价值立场,将道德规范和伦理价值嵌入算法设计之中,构建出负责任的道德算法,通过行业自律、自治和社会共治来推进算法治理,提升算法媒介素养。

(五)敏捷治理准则

大模型在发展过程中会出现诸如数据鸿沟、算法歧视、隐私泄露等不确定性的风险问题,对这些问题的治理刻不容缓,以快速介入、渐进迭代为基本特征的敏捷治理进入人们的视野。敏捷治理要求大模型高效地回应客户、寻求理解与协助、快速实现价值交付,其核心在于快速灵活地响应业务和技术领域的变化,并最大限度地减少客户期望与需求之间的差距,伴随着敏捷治理思想的发展,敏捷治理被广泛运用于媒体视听大模型各个环节。只有建立敏捷治理的法律法规、伦理规范,才能健全敏捷治理的制度体系,才能把握敏捷治理的节奏,实现敏捷治理的治理理念,从而使媒体视听机构生成积极健康的优质内容,构建良好的媒体应用生态体系。

四、结 语

随着大模型的迅猛发展及其对新闻生态的深度介入,新闻实践迈入新的发展阶段,新闻的策划、采写、编审、播出、发布也会发生变化。媒体生产和传播的变化,重新构建了以用户为中心、以内容为纽带、以技术为驱动的智能媒体新体系,从而推动媒体融合的内容创新、技术创新和传播创新,形成以人工智能和媒体创新于一体的新质生产力。在大模型的赋权下,更多元的行动者入场,催生出新闻传播的新模式,形成由PGC(专业生产内容)、UGC(用户生产内容)向AIGC(人工智能生成内容)生产模式的转变。在探索大模型新技术运用的同时,我们必须防范潜在风险,守住新闻真实性这条底线,为公众提供真实、客观、全面的视听内容产品。

来源:天眼新闻

相关推荐