崔凯 | 新闻与传播学定量研究的中国路径:源流、争议与挑战——兼评2024 年的中国新闻与传播学定量研究

B站影视 韩国电影 2025-06-06 15:42 2

摘要:该文总结的传播学定量研究的三次争论非常具有现实意义和批判精神,三大争论包括:批判、思辨与定量的传播研究;定性与定量的传播研究;小数据与大数据的传播研究。

引用格式参考:

①崔凯:《新闻与传播学定量研究的中国路径:源流、争议与挑战——兼评 2024 年的中国新闻与传播学定量研究》,《教育传媒研究》2025年第3期。

②崔凯:新闻与传播学定量研究的中国路径:源流、争议与挑战——兼评 2024 年的中国新闻与传播学定量研究[J].教育传媒研究,2025(03):6-16.

荐 稿 词

第一,该文总结的传播学定量研究的三次争论非常具有现实意义和批判精神,三大争论包括:批判、思辨与定量的传播研究;定性与定量的传播研究;小数据与大数据的传播研究。

第二,该文基于2024年四大刊定量研究的方法述评非常具有借鉴意义,得出的结论具有极强的启发性:“多样化繁荣与规范化缺失”。

第三,该文从定量研究视角对中国新闻传播学研究进行的开拓性总结和梳理。

荐稿人

刘德寰: 北京大学博雅特聘教授,北京大学新闻与传播学院学术委员会主任、副院长,《教育传媒研究》学术主编

摘要

本研究梳理了中国新闻与传播学定量研究的发展历程,探讨了其作为主流研究范式的确立及其在方法论上的演进。文章回顾了“北京调查”等奠基性研究对定量研究范式的推动作用,并分析了围绕定量研究与批判研究、定量与定性方法、大数据与小数据等问题展开的三次重要学术争论。通过对 2024 年新闻传播学四大刊(《新闻与传播研究》《国际新闻界》《现代传播》《新闻大学》)发表的定量研究论文进行分析,本文总结了当前定量研究在数据来源、研究方法、分析技术等方面的最新趋势,并指出当前研究仍然面临数据代表性不足、方法单一、理论深度缺乏等挑战。研究认为,定量研究范式已成为中国新闻与传播学的重要学术传统,但在未来发展中,应加强数据获取的规范性与代表性,提升研究的可复制性与可验证性,促进不同方法论的融合,并推动定量研究与理论建构的深度对话,以更好地适应社会计算与智能传播时代的学术需求。

关键词

定量研究;“北京调查”;研究范式;方法论争议

一、中国新闻与传播学定量研究的源头与进路

1982 年由中国社会科学院发起的“北京调查”被普遍认为是我国现代受众研究的开端,受到了国内外传播学者的高度关注与普遍赞誉,美国著名传播学家罗杰斯(Everett M. Rogers)称其为“中国在传播研究领域中最早的科学成果”。发起人陈崇山认为“北京调查”在我国新闻与传播学研究史上具备三个层面的里程碑式意义:首次对大众媒体进行综合考察;首次运用社会统计方法;首次采用现代化的统计技术(电子计算机)进行数据分析。虽然在“北京调查”之前,复旦大学新闻系 77 级学生也使用了问卷调查的方式进行实证研究,并且对“北京调查”的成员产生了影响,但学界普遍认为“北京调查”是将社会科学研究方法运用于中国本土的新闻与传播学研究的开端。

“北京调查”采用的问卷调查为核心数据来源的受众研究成为千禧年之前我国新闻与传播学研究的主导范式,客观上推动了受众研究和效果研究在我国的普及。该研究的变量设计除了人口学变量、媒介使用行为等变量之外,还设计了媒介的信任度等问题。其后的一系列研究,受制于数据获取能力与技术的限制,往往都局限于区域性的研究,例如 1992 年由陈崇山和柯惠新等主导的被称为第二次“北京调查”的《新闻传播与精神文明》课题,1984 年由祝建华主持的“上海郊区农村传播网络的调查分析”,这两项研究分别采用 IBM/370 大型机 SPSSX、SPSS /PC + 软件包进行数据处理和分析。

其后,出于调查结果亟须推断全国受众总体状况的需求,跨区域的受众问卷调查也开始出现。1990 年,为了评估北京亚运会的大众媒体传播效果,由中国社会科学院新闻研究所、中国人民大学舆论研究所等 8 家单位发起“亚运会广播电视宣传效果调查”,该研究的数据分析由北京广播学院柯惠新负责,建立了广播电视传播效果模型,调研样本覆盖全国,分析技术包括结构方程模型与回归模型等;祝建华先后于 1997 年、1999 年和 2000 年研究了我国跨区域的电视机、住宅电话与互联网的创新与扩散,这些研究创新地采用 Logistic 回归等分析技术,使得我国传播学的定量研究从研究设计、统计技术及分析深度上进一步接近国际社会科学的先进水平。

在商业的推动下,一些收视率公司和市场调查机构积极建立全国性的受众样本库,政府和学术界也积极建立可以瞄准全国、推断总体的媒介及互联网数据库。中国互联网络信息中心(CNNIC)于1997 年 12 月 1 日发布《第一次中国互联网络发展状况调查统计报告》公布网民数量等宏观数据,其后每半年公布一次。中国社会科学院社会发展研究中心、新闻与传播研究所从 2000 年发起《对“互联网在中国五城市(北京、上海、广州、成都、长沙)的使用状况及其影响”》的研究,该研究一直持续到 2007 年,支持了我国早期的互联网历时性研究。中国综合社会调查(CGSS)从 2003 年开始实施,自 2005 年第一次加入了媒介使用行为的问题,一直延续至今。中国社会科学院社会学研究所的中国综合社会状况调查(CSS)也涉及了媒介使用等方面的题目,以全国抽样、问卷调查的形式支持了我国新闻与传播学的截面与纵贯研究。此外,复旦大学与北京大学都主导了质量较高的以问卷调查为核心数据的传播定量研究。

按照拉斯韦尔的 5W 的分法,以“北京调查”为代表的定量研究一般被归于受众研究的范畴,由于这些研究最终着眼于传播效果,因此,无论从方法论还是从研究实操及目标来看,都与哥伦比亚学派的拉扎斯菲尔德的效果研究路径更为接近。这些早期的传播定量研究在具体方法选择上,也基本上采取了与拉扎斯菲尔德和哥伦比亚学派近似的研究路径,分析数据时常以描述统计、详析模型、回归模型、因子分析及结构方程等分析模型为主,在研究设计、问题意识、理论框架等前期阶段,及运用数据来形成理论建构及与理论对话方面还存在较多薄弱之处。“北京调查”以现在的标准来看仍旧存在较多的问题,甚至与美国传播学早期的佩恩基金会电影研究、伊里调查等相比也存在方法论和分析深度上的不足,但其对中国新闻学与传播学研究的后续影响无疑是巨大的。在作为社会科学的传播学实证研究方面,“北京调查”确立了以媒介受众为主要研究对象,以统计抽样和问卷调查为数据获取方法,以截面的属性变量的描述、相关与因果为主要分析路径的定量研究范式。

二、传播学定量研究的三次争论

根据陈力丹的考证,1987 年新闻传播学在中国才被承认为一个学科,而传播学的引入对传统新闻学研究人员在社会科学方法论层面造成巨大冲击。由于学科思维的差异和历史的原因,在美国作为主流范式的实证研究在国内遭遇了不小的争议,主要集中于定量研究与思辨和批判的研究范式、定量与定性的研究视野及近年来定量研究中大数据与小数据的研究争论。

(一)批判、思辨与定量的传播研究

在我国新闻与传播学研究的历史上,关于研究方法存在两个误区。其一是对于社会科学研究方法的认识不足,对作为理论体系的社会科学方法论和作为工具的研究方法缺乏了解,尤其是对实证主义和经验主义缺乏系统性和科学性的认识,常常错把探索性结果当作理论性检验的结果公布,且不做任何信度、效度方面的评估。其二是在很长一段时期内,国内新闻与传播学界都将思辨的研究方法与定性研究方法相混淆,这主要由于国内的传播学研究人员大多来自新闻学学科,而新闻学学科由文学发展而来,继承了“人文—历史—哲学”的思维传统。

定量研究与批判研究在西方传播学发展早期就有过交锋。在广播研究项目中,拉扎斯菲尔德邀请法兰克福学派的阿多诺加入,但研究旨趣的巨大分歧使得两人最终分道扬镳,然而两种方法论的争论却没有造成传播研究方法论的进一步分裂,反而促进了欧洲的批判主义与美国的实证主义之间的对话与相互借鉴。在迪凯特研究中,注重个人行为变量的拉扎斯菲尔德与强调宏观社会结构的米尔斯也因学术视野的不同而决裂,后来因为《社会学的想象力》名声大噪的米尔斯也在书中无情地批判道:“抽象经验主义更关注科学哲学,而非社会研究本身。”然而,作为一个坚持实证主义的“行政管理”传播学家,拉扎斯菲尔德在沉醉于发明传播研究的工具及引领传播效果研究的新纪元时也强调批判的反思,例如大众媒体的麻醉功能就由他与默顿共同提出。陈力丹认为,传统的新闻学研究方法遵循人文 - 历史 - 哲学的思维模式,同时带有较强的经验描述性质,在很长的一段历史时期内是我国新闻学研究的主流范式,彼时的新闻学研究“尚谈不上学科的研究方法”,甚至定量分析的方法被批判为“唯心主义糟粕”。在传播学理论逐渐被接受的浪潮下,传播学的经典研究中携带的研究方法也逐步被我国学界接纳,尤其在 20 世纪 90 年代媒介体制改革的推动下,市场力量进一步推动了受众研究的发展,开启了探索中国本土化实证主义传播研究的新阶段。

(二)定性与定量的传播研究

早期的传播学研究历史充满了定性研究与定量研究的争论,例如芝加哥社会学派所做的传播研究以社区调查、访谈、历史档案等定性研究方法为主,大规模的抽样调查和实验较少。但是,19 世纪 20年代,关于电影效果的佩恩基金研究的大部分研究人员都来自芝加哥社会学派,而佩恩基金研究是一项以定量研究为主的研究,被罗杰斯评价为传播效果研究的起源。芝加哥社会学派的布鲁默也是该项目的重要成员之一,他曾经指出,“我怀疑它(统计学的效果研究方法)没有准确地反映出大众传媒在现实中的运作,它设置许多具有伪命题的假说,并得出了错误的推论”。于维也纳大学获得数学博士学位的拉扎斯菲尔德虽然主要以定量的传播效果研究闻名,然而他也致力于打破定量与定性研究方法的界限,创新地将定量与定性研究资料应用于媒介研究中,他与默顿共同发明了焦点小组方法,也是三角互证策略的早期倡导者。

在我国,当实证主义的重要性被提上议事日程,定量研究由于其与自然科学的研究范式相似而率先拥有了更高的接受度,定性研究的重要性在新闻与传播学的研究中反而被低估。陈力丹认为,2002年陆晔、潘忠党的论文《成名的想象:社会转型过程中新闻从业者的专业主义话语建构》对传播学定性研究方法的普及产生了较大的影响。其后,定性的传播研究如雨后春笋般涌现,出现了一大批兼具本土意识与分析深度的研究成果。

新闻与传播学学科发展至今,定量与定性的分野已不再泾渭分明,两种研究范式不仅彼此借鉴、取长补短,同时也在大数据、人工智能的推动下进一步融合。首先,在定量研究形成研究假设时,对社会事物与媒介现象的观察及形成问题意识的过程事实上是定性的,而借助定量研究的变量思维,可以更好地帮助定性研究形成理解和解释的不同层次与范畴,促进逻辑推理以形成理论。第二,在内容分析方法中,前置步骤的编码过程是定性的,而后续对编码的数据分析则是定量的,内容分析法从来就是一种融合了定量与定性视角的研究方法;而在人工智能时代,多数媒介内容的编码可借助定量算法或者人工智能软件来完成。第三,定性比较分析(QAP)作为一种案例导向的研究方法,已经成为新闻学与传播学经常采用的融合定量与定性的研究方法。第四,在混合方法中,大多数融合定量与定性研究方法的社会科学研究是为了强化(使用其中一种方法收集数据来强化另一种方法的研究发现)、完整(综合使用两种方法使得研究的解释更为全面)以及三角测量(结合两种方法的对研究发现进行三角测量,使得研究发现之间可以相互确证)。

尽管如此,传统的社会科学方法论认为定量与定性的研究方法在本体论和认识论上互不相容,存在难以逾越的鸿沟。教育学、社会学等社会科学学科率先对定量与定性两种方法融合的可能性及问题进行了探索,而作为其成果之一的混合方法的提出被称为“第三次方法论运动”。朱迪进一步对混合方法的问题进行了总结:在混合方法中,“定量或定性指的是数据收集方法还是分析方法?客观观察到的调查数据是否‘可以’与主观建构的数据相结合?很多研究也未详述具体使用的研究策略,是定量数据主导还是定性数据主导?是为了研究结论的完整互补还是更加深入,抑或是为了检验研究方法的有效性?”徐建平等认为,混合方法不同于单纯的定量或定性研究,从方法学角度而言是一种综合性的研究取向,混合方法在丰富实验参与者、验证工具有效性、评价干预效果、增加研究显著性等方面具有良好的应用价值,其中三角互证设计、嵌入式设计、解释式设计、探索式设计是较为流行的四种混合方法研究类型。

随着大数据和人工智能技术的发展,作为经典定性研究方法的扎根理论也在尝试计算化与定量化,被称为“计算扎根”,陈茁和陈云松等提出一种以定量方式直接助产理论的“计算扎根”方法。蒋俏蕾等认为,计算扎根理论是一种由数据驱动、从经验出发的研究方法,旨在超越传统的定量与定性的二元对立,实现方法的有机融合,从而构建启发性理论。计算扎根理论方法的提出与应用则进一步标志着定量与定性研究方法不仅在数据回收层面,而且在分析与理论建构方面的进一步融合。

(三)小数据与大数据的传播研究

从事传播定量研究的学者也有一些关于定量研究的方法论反思,在不同时期的争论又各有侧重,体现了新闻与传播学定量研究的曲折发展历程。祝建华曾提到早期从事传播研究时更注重问卷设计、抽样设计(样本能代表总体)和统计分析(分析结果能反映或接近真相),而他的早期研究曾被美国学者批评“仅属描述性,缺乏理论”。在以对受众问卷调查作为主要数据来源的时代,能否收集系统抽样的样本、能否推断总体、能否科学设计问卷、能否进行统计检验而不是简单描述,以及如何对统计分析的结果进行深入解读,是以“北京调查”为代表的时代在定量研究的方法论和实操层面所主要争论的问题。

大数据的出现带来了大数据与小数据之争。最为著名的观点并非出自定量研究的社会科学学者,而是来自以定性研究见长的潘绥铭,他于 2016 年撰文《生活是如何被篡改为数据的 ?——大数据套用到研究人类的“原罪”》对“一切皆可量化”的大数据方法论提出批判,指出应当警惕对大数据的盲目崇拜,大数据在量化“社会生活”的过程中不可避免会出现剪裁现实生活、忽视社会情境、抹煞主体建构、取消生活意义四个误区,该文引起了一些质疑,潘绥铭回应质疑的理论基础是基于传统社会科学定量研究的科学性:“定量的社会调查和社会科学研究都是先有假设,然后收集数据,最后用统计学来检验这个 / 这些假设是否能够成立。可是大数据却反其道而行之,是没有任何假设地去漫无目标地收集信息,然后再大海捞针般地去得出结论。”

一般而言,大数据被认为具有体量浩大、模态繁多、生成快速、价值巨大但密度很低等特点,但从研究方法的角度而言,大数据与小数据的最大差异是先有数据还是先有理论假设。从社会科学研究的科学环的角度而言,传统的问卷调查遵循了演绎式的思维路径,即从理论出发提出研究假设,遵循严密的概念化与操作化过程从而保证了定量研究的信度与效度。大数据则跳过了操作化的过程,直接将概念与已有的数据来进行对接,然而数据与概念之间往往存在鸿沟。此外,大数据对应着互联网的痕迹、行为与趋势,却无法对应现实社会中的人,导致个人统计变量在大数据中往往是缺失的。抽样的小数据已被验证拥有解释和预测社会趋势的潜力,海量的数据由于噪音的增加反而可能会带来更多的虚假关系从而降低数据分析的精确性,而平台数据库的封闭则可能进一步带来数据结果与社会生活的断裂。

就像定性和定量研究最终走向合作那样,大数据和小数据也需要握手合作,各自发挥所长。一个可能的方案是通过抽样的方式来获取一部分样本进行可以推断大数据总体的接合型研究,即在大数据总体中随机抽取一定数量的用户数据进行人口学和社会学变量的推断,再与大数据中对应的用户痕迹数据进行匹配后进行分析,将大幅提升大数据总体的分析深度与效度,这种方法也是互联网公司在进行数据挖掘时经常采用的研究思路。

2021 年 7 月,美国《Nature》杂志推出“计算社会科学”(computational social science)专题,标志着自然科学对基于大数据和计算方法的社会科学方法论的认可。计算社会科学运用大数据和计算方法处理如社交媒体、行政记录、历史档案等数据的新来源,以探索和发展人类行为理论,主要的子研究领域包括:(a)社会网络分析与群体形成;(b)集体行为与政治社会学;(c)知识社会学;(d)文化社会学、社会心理学与情感研究;(e)文化生产;(f)经济社会学与组织研究;(g)人口学与人口研究。传播学积极引入相关的方法论建立计算传播学的研究框架,涵盖传播研究 5W 的各个领域。

三、多样化繁荣与规范化缺失:基于 2024年四大刊定量研究的方法述评

随着学科的不断发展,国内与西方的新闻学与传播学研究的学术对话进一步加深,加上互联网既作为研究对象又作为数据来源,在推动大数据研究的同时也提升了计算社会科学的合法性,促进定量传播研究的科学性、多样化和研究深度的进级。不论是定量数据的回收方法,还是作为可计算和分析的数据类型与数据结构,抑或是计算方法和数据建模,都体现出稳健发展和逐步规范化的特点。已有研究对2023 年传播学主要期刊的经验研究进行讨论,本文以 2024 年新闻与传播学的四大刊(《新闻与传播研究》《国际新闻界》《现代传播(中国传媒大学学报)》和《新闻大学》)为例,对传播的定量研究体现出的新趋势进行简要扫描和方法述评。

(一)2024 年四大刊定量论文的发表概况

2024 年,新闻学与传播学四大刊共发表定量研究论文 108 篇,占总体的 21.7%,根据於红梅和潘忠党的研究53对 2023 年四大刊的论文的研究方法的编码结果进行计算,相应的比例 17.1%,2024 年比2023 年的定量研究论文比例有所提升。在这些定量论文中,102 篇为实证研究论文,6 篇为定量方法论的论文,呈现出重实证研究而轻方法论的趋势。

从各刊物来看,全年发表定量论文篇数最多的期刊为《现代传播》,共发表定量研究论文 31 篇;全年发表定量研究论文比例最高的期刊为《新闻大学》。黄旦等曾对 1981 年 -1996 年《新闻大学》发表的定量论文进行过统计,1981 年 -1984 年定量论文比例占 5.1%,1985 年 -1988 年的比例为4%,1989 年 -1992 年的比例为 13%,1993 年 -1996年的比例为 3%。我国新闻与传播学的定量研究论文不论数量还是比例,在几十年之间得到了迅猛发展,这表明定量研究不再是一个外来的和边缘的研究范式,成为我国新闻与传播学主流学术期刊中至为重要的组成部分。

从 2024 年新闻与传播学四大刊发表的实证类定量论文来看,合作类的论文占据绝大多数,其中甚至有 8 篇论文作者数量在四人以上,而单独作者的论文仅有 17 篇。从作者的职称情况来看,青年学者在定量研究中占据一定的优势,第一作者为副高级职称及以下的论文有 63 篇。从第一作者所在学科及合作情况来看,98 篇来自新闻与传播学一级学科,4 篇与信息科学等其他学科进行交叉学科研究,6 篇的第一作者来自经济学、外语等其他学科。从具体的研究领域来看,涵盖国际传播、健康传播、政治传播、智能传播、广告与公共关系等领域,其中较为集中的领域为国际传播 (18 篇 )、健康传播(17 篇)。

(二)数据来源与数据类型的多样化及规范性的缺失

接下来我们对这些新闻与传播学定量研究的数据类型进行考察。在考察时分为三个层次,首先考察这些数据的来源,其次考察数据是截面型数据还是纵贯型数据,最后考察这些数据的数据结构,包含属性数据、关系数据、文本数据、图片数据及视频数据等不同的类型。

首先对数据来源进行考察。统计可知,在全部 102 篇实证研究定量论文中,有 44 篇的研究数据来源于互联网,57 篇论文的数据来自问卷调查,1 篇论文综合使用了互联网数据和问卷调查的数据。需要指出的是,通过问卷调查回收数据的定量研究较多是由于近年来国内兴起了以实验法为主的定量研究,而这些研究一般而言是以小范围招募被试、以问卷调查为数据回收方式的研究设计。

第二对数据是历时性还是共时性进行考察。在本文所研究的 102 篇实证类定量论文中,纵贯型数据的定量研究论文有 17 篇,涵盖主流媒体医患报道、电影院线、信息隐私、网络热搜和全球海底电缆等多个领域。其余研究的数据均为截面数据。

属性数据主导了大众传播时代的问卷调研、内容分析与实验法的研究数据类型,在社交媒体及大数据时代,社会网络分析理论和方法被引入新闻学与传播学研究,大量以关系型数据驱动的研究涌现,成为社交媒体、舆情扩散研究的基础数据。2024 年四大刊发表的定量研究中,属性数据研究仍是主流,达到 63 篇;纯粹以关系数据为基础进行研究的也较少,仅有 3 篇;信息科学和人工智能技术推动了大数据和算法对文本及其意义的理解,因此对文本的研究显著增多,达到34 篇。此外,有两项研究分别以图片和视频为基础数据进行研究,新闻学与传播学进一步拓展了学科的研究数据范畴。

数据来源多样化、数据类型丰富化的同时,研究数据获取方法和样本信度却仍难以保证。於红梅和潘忠党总结了定量研究数据获取的几个严重问题。首先是实验法被试对象招募过程的科学性与代表性存疑,这些研究往往仅报告被试对象是自愿参与,但“对招募的人是否或者如何适宜作为该对象的参与者没有说明”。其次,一些采用问卷调查的问卷缺乏抽样方案,仅以方便抽样作为数据来源,这样的方法可能造成数据信度的降低与分析结果代表性的缺失。此外,在以网络数据为来源的研究中,对于某平台、某些关键词等的分析也缺乏代表性的论证,而由于删帖、内容不可见而导致的数据缺失也使得这些数据的信度存疑;数据清洗及缺失数据的处理过程也不做陈述。在数据来源范畴不断扩张的背景下,数据的代表性和有效性却难以得到保证,抽样的科学性和样本代表性问题再次成为传播学定量研究数据信度的显性问题。

(三)纵贯研究与实验法的复兴

国内的传播学研究一直由静态方法占据主导,这一类研究使得传播学的定量研究呈现出“只见短期不见长期”“只见微观不见宏观”“只见属性不见关系”“只见相关不见因果”“只见验证不见预测”等去过程化与去时间化的方法惯性。然而,长期的、宏观的、关系的、因果的以及预测的传播学定量研究也在不断涌现,引领着传播学定量研究的新方向。

从研究方法来看,在传统的静态截面研究之外,纵贯研究与实验法逐渐增多,取代了原来以问卷调查为主要数据来源、以截面的属性变量为主的传播定量研究。有学者认为,以定量研究为代表的实证研究难以对时间变量进行研究,难以将社会变迁、规律变化纳入分析。前文提到了数据类型的截面与纵贯之分,然而回收数据是纵贯型并不必然意味着该研究是纵贯研究。纵贯研究不仅要求数据是历时性的,同时数据分析也应当采用纵贯研究的分析方法。

2024 年四大刊发表纵贯研究有 17项。将时间性、过程性的研究视角纳入定量研究之中,不仅是宏观社会视角与社会变迁的体现,同时也是定性研究注重情境、过程与社会互动的定量化转译。刘德寰在分析中国互联网的早期扩散过程时,就以年为单位对影响互联网创新和扩散的时间变量进行了拆解,提出历程化的定量分析思路,APC(时间 -时期 - 世代)模型进一步丰富了历程式扩散的分析路径。其后,对时间变量的切分更为细致,更加强调时序先后的因果关系的时间序列分析也被引入传播学。基于文本网络分析方法和议程设置理论,交叉滞后分析和格兰杰因果分析69也成为宏观效果的纵贯研究的主要研究方法。

实验法作为传播学萌芽早期最为重要的研究方法,有 27 篇采用这一早期的经典方法,体现了传播学实验法在强调因果关系时代的复兴。吴晔等对基于社交机器人的田野实验的概念、方法、研究设计和实际应用进行了介绍,认为社交机器人田野实验结合了大数据分析与仿真方法的优势,已发展为一种高度可控的实验法。这些研究为数据受限条件下进行社会科学研究提供了新的想象力。

(四)分析方法:重技术轻理论及以线性关系和相关关系为主导

相对于传播的定量研究在选题和数据来源的多样化,定量分析方法的问题则不仅限于可复制性较低和盲目崇拜新技术等,李雪莲和刘德寰认为,传播学的定量研究的分析层次主要停留在描述数据特征与结构,较少涉及解释和预测任务;以解释和预测为导向的研究也存在研究设计和分析的不完整和其他的方法缺陷,缺乏替代性解释或难以穷尽影响因变量的关键自变量,存在解释与预测的方法性混合性误用。基于 2024 年四大刊的定量研究,本文从编码、相关与因果、线性模型等角度对这些研究进行讨论。

1. 文本编码的社会计算与人工智能转向

作为内容分析的关键步骤,对文本数据进行编码被认为是内容分析偏向定性研究的一个重要证据。在计算社会科学的影响下,编码这一环节也产生了定量化的转向。纵观 2024 年度的发表,可以发现有两种对于文本型数据的分析策略,以下分别介绍。

首先是运用基于机器学习的方法对文本数据集进行训练以获得编码,较多采用 LDA 模型来进行分析。LDA 是一种无监督的机器学习算法,这种算法通过学习既有的文本分布和关键词关系来得出文本的分类。在一些文本数量较大的传播研究中,采用 LDA 进行文本编码以及情感倾向的计算成为较为常见的研究路径,例如对网络游戏在海外社交媒体传播效果的研究、对中美主流媒体的“中国式现代化”国际传播话语分析、对 Tiktok 美国被禁止运营的社交媒体情绪传播分析都对文本进行了 LDA 分析,从而转化为网络矩阵数据进一步计算议题间的相关或因果关系。

其次是运用人工智能软件进行语义类属的编码。在人工编码、社会计算编码之后,生成式 AI技术的发展推动了这种新型的文本编码方式。有研究对比了人工编码与 ChatGPT 编码两种不同的方法,发现 ChatGPT 编码不仅花费成本更低,且编码的一致性更好。同时,相比较基于逐步归纳的LDA 等文本计算的算法,ChatGPT 是一种需要先制定编码类别后基于人工智能理解的编码方法,避免了仅基于计算结果而导致编码结果过于分散或析出更多无意义类属的问题。陈慧敏和邓依林对中国科技形象的国际传播研究中用了 openAI 公司的 GPT3.5-turboAP 对 X(原 Twitter)平台的社交媒体数据进行情感倾向编码,经过人工编码结果的对比也发现 ChatGPT 3.5 的编码效果较好。

2. 新技术的引入与研究设计创新

作为一个交叉学科,传播学的研究一直非常注重人文、社会与信息技术的创新,一方面引入其他学科的经典分析方法,同时积极吸收新的分析技术。在这些新技术和分析方法的创新中,主要集中于控制实验法和计算传播学领域。

将模拟和仿真等计算机技术应用于传播学研究领域,基于对关键影响因素的系统推导和总结,依赖半真实数据构建理想化的传播场景,将条件受限的传播规律研究推向了新纪元。徐明华等指出,与情绪传播相关的实证研究有“数据分析”和“模型推演”两种路径,他们将情绪传播操作化为情绪唤醒、情绪趋同与情绪回音强度进行赋值后并进行了模拟。赵汗青等的研究采用了社会模拟仿真的方法,制作包含病毒特征、疫情信息传播、封控措施和资源供应的模拟系统,采用计算实验探索了疫情信息在不同系统条件下对疫情演化的影响。

大部分实验法的研究设计仍依靠问卷调查来获取数据的同时,也有一些实验法研究尝试创新。有研究将人工智能应用作为实验对象,对 GPT4-turbo和文心一言 4.0 的提示后输出结果作为实验对照组进行分析。一项研究采用了 ABT 的方法,即模拟用户与算法交互的计算实验方法,通过虚拟代理(virtualagents)控制数据输入和捕获输出,分析算法的运作机制来进行三个实验组的对照研究。

一些计算传播的研究也将其他社会科学和信息科学的分析方法运用于传播研究中。汪翩翩等通过对道德愤怒进行测量,对微博的道德愤怒表达的社会学习过程研究进行时间序列分析。徐翔等采用交叉滞后分析时,采用社会网络分析中的凝聚子群分析、QAP 相关分析来分析文本和议题的关系,对文本进行向量化处理和议程传导的可视化。刘嘉琪等创新地将视频作为研究对象,对视频数据的视觉模态、听觉模态、语义模态和多模态融合进行操作化与测量,采用融合 XGBoost 与 SHAP 算法的可解释性机器学习技术,对内容信息量、信源多样性、视频主情绪、人格魅力、拟态氛围维度下 27 个说服线索的重要性及作用方向进行探索。这些研究不仅将传播研究的研究对象和数据来源范畴大幅拓宽,同时也为分析这些数据提供了前沿探索和研究模板。

3. 相关、因果之争与分析方法的线性简化

相关与因果的论争从小数据时代一直延续至大数据时代,在智能传播和社会计算的时代仍旧是一个值得讨论的问题。当前的讨论已经不再停留于采用的统计方法是相关还是因果上,例如在以问卷调查和内容分析作为主要定量研究方法的传统定量时代,采用方差分析等二元变量分析或详析分析模型会被认为是相关性的分析,而用多元线性回归、结构方程和路径分析等模型则会被认为是因果分析。当前,相关与因果之争进入到了新的纪元,2012 年舍恩伯格出版的《大数据时代》提出“更好:不是因果关系,而是相关关系”激起了一些讨论,刘德寰和李雪莲提出当数据样本越大时,相关关系就越明显来驳斥关于重相关和轻因果的主张。之后他们又撰文提出,在“观测数据 - 回归分析”模式下发现的解释变量和因变量,即使双方之间具备统计学意义上的显著关系,这种关系一般被认为是因果关系,但往往只是相关关系;传播学实证研究和其他社会科学一样,在因果关系识别和确定上,始终无法解决混淆变量、遗漏变量等问题。

2024 年的定量传播研究中,以招募被试为手段、问卷调查为数据回收的控制实验传播研究,在对数据进行分析和建模时一般有四种方法。其一是采用路径分析的分析方法,采用 process 进行中介效应 或调节效应分析以对多个变量的影响进行检验,也有不少研究运用结构方程进行检验,这也是实验法的研究中数据分析较多采用的的方法。其二,方差分析等二元检验方法。其三,回归模型。其四,在实验法中嵌入了议程属性网络分析(QAP)来对比不同控制实验组之间的差异。这些研究都经过了系统严格的文献综述来获得假设模型,通过一个或多个实验进行检验,但如同前文指出的,这些模型虽然从统计检验上被认定为是因果关系,然而软件无法识别社会情境下孰因孰果,调换因果变量的位置通常亦能建模成立,因此有研究采用机器学习预测、事后归因解释来进一步论证变量之间的因果关系。

社会网络分析作为一种重要的关系研究方法,近年来也得到了传播研究的重视。网络分析一般分为对人际或扩散关系与文本共线网络关系两类。将人际或扩散关系作为研究问题,主要聚焦于网络行动中的协同合作或日常交往网络结构,这些数据虽然都来源于互联网,但往往基于小数据的分析进行模拟总结,这些分析更多是描述性和解释性的,但由于这些研究往往借鉴了定性的分析视角,研究往往又具有相当的分析深度和理论关怀。另一类研究则借鉴网络议程设置的相关理论和方法,对由文本数据而得到的议程或关键词进行网络分析,从而尝试构建受众头脑中的信息组织方式,采用 QAP 等方法,可以计算不同议程之间的相关关系,结合历时性的数据观测与网络分析,则可进行更可信的因果关系推断。

尽管分析技术得到了空前的发展,但分析深度的不足仍旧是定量传播研究的重大缺憾。以实验法的研究为例,不论是方差分析、中介效应分析、结构方程模型还是回归模型,都只停留在线性关系的检验,而忽视非线性关系的检验则可能会陷入“程序正义”之下的数据分析陷阱。郭蕾等对经典的宏观传播效果理论议程设置理论提出修正时直指线性的认知图谱这一错误假设,提出以网络分析的方法替代线性关系的方法来检验议程之间的关联关系。刘德寰则以年龄变量为例,提出通过建立因变量与解释变量之间的非线性关系的检验来还原社会变量之间的复杂互动关系。2024 年四大刊的传播定量研究中,有研究尝试建立不同变量之间的交互效应对因变量的影响,多变量、多因素的分析较之于双变量或简单的线性回归能更好地解释媒介效果的来源,然而线性的正相关或者负相关的关系则仍难逃将传播现象过分简化之嫌。

四、登堂入室的新闻与传播学定量研究:在守正的基础上创新

从本文所梳理的三次方法论之争来看,当前的定量研究已经不再纠结于思辨、批判和定性的研究方法之争,我国新闻与传播学的实证研究得到了长足的发展,定量研究范式已经作为一种主流研究范式正式“登堂入室”。在这样的背景下,重新反思如何做出超越 “琐碎的经验研究”以及“精致的平庸”的定量研究,成为当前需要直面的关键问题。遗憾的是,当前的新闻与传播学定量研究急于追求新技术而忽视理论,崇尚人工智能和机器学习而忽视复杂分析模型,研究方法单一且片面,出现“不学走路先想跑”的风气。新闻传播学定量研究需要进一步提升研究质量,只有先“守正”才能做到理论和方法的创新。

我们呼吁新闻与传播学应当首先正视当前定量研究的的方法论谬误与问题,守住定量研究的方法基线。第一在研究设计上,应当融合不同的研究方法,例如定量与定性融合的混合方法、实验法与计算传播融合的仿真模拟与社会计算等。第二应当关注定量研究的规范性问题,包括数据的代表性、数据清洗与缺失数据的处理;理论概念与数据之间对应关系等。第三应当注重数据的可复制与可检验性,这就要求定量研究一方面公开数据源,另一方面则应将数据处理、数据计算和建模过程代码透明化。第四是定量研究的数据分析层次问题,涉及描述、相关、因果等不同的层次,将预测与解释的任务纳入未来的传播研究。

在守正的基础上才能在理论和方法论上积极创新。一是研究数据的创新,将与人类传播行为相关的关系、文本、声音、图像、视频数据和人工智能进行系统化与结构化的探讨,进一步将研究范畴、研究对象与人类传播行为相衔接。二是研究技术与分析模型的创新,社会计算、模拟仿真与人工智能将进一步提升社会科学的研究空间,如何将这些技术纳入更包容的传播研究中,使得不同的学科之间可对话、可相互检验?三是打破不同研究范式之间的隔阂,将定性与定量、大数据与小数据、计算与模拟、相关与因果、短期与长期、宏观与微观传播研究方法进行融合。四是理论和方法论的创新,以技术和数据为重要驱动力,传播研究已经在数据类型和分析技术上进行了扩张,但如何像传统定量属性数据及社会网络分析的关系数据一样发展出具备理论与方法论支持的定量研究体系,是摆在当代学者面前的难题,也是传播学定量研究进一步论证其合法性的必要任务。只有打破不同研究方法之间的壁垒与成见,加深理论的深度与方法论的建构,才能在社会计算和智能传播的时代使得新闻传播学长久、自信地立足于科技与人文的交叉领域。

基金项目: 本文系 2020 年北京高等教育本科教学改革创新项目“新文科背景下多学科融合型社会科学大数据方法课程模式创新与实践研究”的阶段性成果。

投稿请关注我们

来源:中国教育电视台

相关推荐