摘要:“闲门向山路,深柳读书堂”,语出(唐)刘昚虚《阙题》。深柳掩映下的清净书堂,最是读书人向往的治学之所。由是,我们用“深柳堂”来命名《新闻与传播研究》论文推介栏目,以期让同好慢慢品读,细细体味。
深
柳
堂
“闲门向山路,深柳读书堂”,语出(唐)刘昚虚《阙题》。深柳掩映下的清净书堂,最是读书人向往的治学之所。由是,我们用“深柳堂”来命名《新闻与传播研究》论文推介栏目,以期让同好慢慢品读,细细体味。
本栏目期待能够成为学者们田野归来坐而论道的一方宝地,将理论与实践结合起来,切之,磋之;也欢迎各位读者向作者提出问题,琢之,磨之;我们会精选问题予以回应,奖之,励之。
基于观察数据的传播学研究设计
作者|王刚
内容提要
定量研究方法在传播学中的应用大多都是基于观察数据展开的。在条件独立假设无法满足的情况下,观察数据与生俱来的内生性问题,尤其是遗漏变量问题往往会导致参数估计的不一致,而多元回归模型和结构方程模型并不能有效地处理这些难题,这就给研究人员进行传播学的理论检验带来了极大困扰。但是,这些困难并非意味着传播学中的观察研究无法进行因果推断。论文以一些典型的传播学研究为案例,说明了使用观察数据的传播学定量研究可以考虑通过利用外生性因素来处理遗漏变量和分配机制的研究设计思路,并结合这些案例详细介绍了断点回归设计、工具变量法和双重差分模型等方法。这些研究设计可以也应该在未来的传播学定量研究中发挥重要作用。
关键词
观察数据 遗漏变量 断点回归
工具变量 双重差分
正文
一、引言
尽管实验方法是科学研究中的黄金方法,传播学中的许多定量研究由于各种原因还不得不依赖观察数据(observtional data)展开。观察数据有时也被称为回顾数据(retrospective data)或非实验数据(nonexperimental data),是指由随机实验之外的方式所产生的数据,通常包括调查、人口普查或行政管理档案等。而观察研究(observational studies)则是一种关于处置(treatment)或政策及其因果影响的实证研究,这类研究与实验研究的重要区别在于研究人员无法控制处置条件的分配。例如《新媒体接触对社会治理参与的影响研究——基于中国社会状况综合调查2013-2017年数据的实证分析》一文就是一个典型的使用观察数据展开观察研究的案例。该研究中的数据来源于中国社会状况综合调查的3期混合截面数据,这些数据来自于社会调查,并非实验生成。在此观察研究中,研究人员观察到了个体在新媒体接触方面的差异,但这些差异并不是由研究者控制形成的。对于传播学等社会科学而言,观察数据有一个先天的内生性(endogeneity)问题。数据的内生性会导致统计推断分析中的参数估计不一致,这就会给研究人员进行传播学的理论检验造成极大困扰。所以在现代社会科学比如经济学、政治学等学科的观察研究(observational studies)中,围绕着对内生性问题,尤其是对遗漏变量(omitted variable)问题处理的研究设计(research design)自然就成了这些研究中最重要的内容之一,也是其研究方法部分的核心。
令人遗憾的是,目前在传播学中对于研究设计这个概念还存在着极大的误解。一个研究设计是否恰当往往取决于一项研究的目的,对于以预测和政策建议为主、关注变量间相关性的传播学研究,研究设计围绕着多元回归模型或者结构方程模型中的测量模型展开是无可厚非的——尽管在这一类相关性研究中研究设计是一个很少被涉及的名词。但是科研人员最感兴趣的,也是最有理论价值的研究大多都涉及变量间的因果关系和理论逻辑。这一类的研究从方法上来看难度要远远大于前一种相关性分析,其中最大的难点就在于如何有效地处理以遗漏变量为代表的内生性问题——这就必然要求科研人员首先对观察数据进行策略性识别。所以,针对因果关系分析的这些识别策略才是一项传播学研究设计的核心内容。
通过多元回归模型或结构方程模型得到的只有相关性解释的回归系数来进行传播学中的因果关系推断显然是不恰当的。也正是由于对研究设计和回归系数的误解,在实际应用中,许多传播学定量研究还常常误把随机样本当作随机分配、错误地使用控制变量或解读其与因变量的关系、通过增减变量观察R^2的变化来判断因果影响等等。这些现象说明了在传播学中有误把定量研究方法等同于应用统计学的趋势。事实上,社会科学中的定量研究方法与统计学最重要的区别之一就是对因果关系的关注和讨论,之二便是本文讨论的一些针对观察数据的识别策略,也就是研究设计的核心。
传播学研究的科学性与规范性首先就应该体现在其方法的科学性与规范性方面。与其他社会科学一样,对于以传播学理论构建为目的的研究,其研究设计自然也就应该围绕着对内生性问题的处理展开。接下来,本文首先说明为什么内生性问题中的遗漏变量问题是对传播学定量研究的最大挑战,以及多元回归模型和结构方程模型等目前的流行方法在处理这一难题时的局限性。然后本文讨论基于观察数据的研究设计的核心问题——识别策略,并结合一些传播学中的典型案例讨论几种观察研究中常用的研究设计,包括断点回归设计、工具变量法和双重差分模型等。
二、传播学中的遗漏变量问题
在传播学研究中最为常见的内生性问题包括循环因果、测量误差、遗漏变量和选择性偏差。在这四种常见情况中,循环因果从逻辑上是比较容易判断出来的,比如社会资本和社交APP的使用情况之间就存在互为因果关系。通常来讲,针对遗漏变量问题的一些研究设计,例如工具变量法,也可以同时处理循环因果和测量误差。而选择性偏差是构成遗漏变量偏差的一种常见形式,也可以被看作是遗漏变量的一种特殊情况。所以,遗漏变量问题是对包括传播学在内的社会科学因果关系识别的最大挑战,也是传播学中极难处理、最需要相应的研究设计来处理的内生性问题。
传播学中的观察研究与实验研究有一个极其重大的区别就在于,在实验研究中,处置变量的分配机制是由研究人员控制的,往往也是随机的。所以在一项理想的随机试验中,因果关系可以通过比较控制组与实验组在因变量上的均值差异来识别。但是在观察研究中,研究人员只能够观察到每一个个体在解释变量上的取值(比如对微博的使用情况),至于这个取值是如何分配给每一个个体的(也就是为什么有的人使用微博很多,而有的人却很少使用)却是未知的,通常来讲也不可能是随机出现的(我们当然很难相信每个个体在微博使用程度上的差异是随机产生的)。这种观察研究中解释变量的非随机性导致了一个严重的方法问题,那就是统计上的相关显著性很可能只是表面的,实际上只是由遗漏变量引起的。
我们以下面这个传播学中颇为流行的主题为例。假设我们感兴趣的研究问题是社交类APP是否会提高人们的社会资本,并假设这里不存在循环因果、测量误差和选择性偏差。用Yi表示社会资本,Xi表示APP的使用情况,Zi为一组控制变量,ηi为残差项。当我们试图用观察数据比如某次调查以及如下的多元回归模型(2.1)来研究这一问题时:
显然,调查问卷中能够涉及到的调查对象和问题是有限的,如果某个同时与Yi和Xi都相关的变量,比如家庭收入被“遗漏”到了ηi中,那么被观察到的一个显著的,就不仅仅包含了社交APP对社会资本的影响,它也包含了收入对社会资本的影响。通常情况下,家庭收入与社会资本和社交APP的使用都是正相关的,这也就意味着通过(2.1)式得到的一个显著的正的β是有极大误差的,社交APP对社会资本的影响可能并不存在,至少无法通过(2.1)式以及β的显著性来判断。
如图1所示,一方面我们有理由认为家庭收入高的、父母教育水平高的或者具备某些思想观念和性格的个体可能更早地使用电脑或者智能手机,从而也就可能更早更多地使用社交APP;另一方面,具备上述这些特征的个体又很可能拥有更高的社会资本。当这些变量被“遗漏”在(2.1)式中的残差项ηi中时,他们对社会资本的影响便通过其与社交APP的相关关系被体现在了中。
在使用回归模型(2.1)来检验与上文类似的传播学理论问题时,实际上隐含了极其重要但通常又不可能成立的一个假设前提,那就是β代表了解释变量对因变量的影响——这样自然也就可以通过的显著性来进行理论检验。而这个前提成立的条件是(Y1i,Y0i)⊥Xi。前面的分析表明了,潜在结果不独立于解释变量的主要原因就在于遗漏变量造成的混淆性(confoundedness)。那么一个简单直接的解决方案便是把所有潜在的混淆因素作为控制变量引入(2.1)式,在给定这样一组控制变量的条件下,(Y1i,Y0i)⊥Xi|Zi是可以成立的,(Y1i,Y0i)⊥Xi|Zi即条件独立性(conditional independence),也被称为非混杂性(unconfoundedness)或者依据观测的选择(selection on observable)。即潜在结果条件独立于解释变量。但是,使用满足条件独立假设的线性回归在传播学的实际应用中又面临着许多困难。要使得(2.1)式满足(Y1i,Y0i)⊥Xi|Zi,就需要把全部“坏”的控制变量(也就是受Xi影响的那些变量)剔除出Zi,并且把所有“好”的控制变量(也就是与解释变量和因变量都相关的混淆因素)引入Zi中。
在使用观察数据和多元回归模型来研究社交APP对社会资本的影响时,类似于家庭收入这一类可能同时与社交APP和社会资本都相关的变量有许多。虽然我们可以尽量地把这些变量都作为控制变量“控制”起来,但是能够被控制的变量毕竟是有限的。更重要的是,传播学研究中经常会涉及个体的能力、动机等不可观测变量(unobservable variable),要控制这些不可观测因素是极其困难的,甚至可能还有些我们不知道但又需要被控制的因素也遗漏在了ηi中。所以在观察研究中,通过(2.1)式很难对传播学的因果理论进行检验。
在新闻传播学中,还有大量的案例使用结构方程模型来研究与个体的态度和认知等与潜变量相关的问题,比如人们对某种APP的满意度是否会影响他们对APP的分享意愿和分享行为。通过结构方程模型也许可以解决某些解释变量的测量问题,也就是测量误差问题,但是显然无法解决遗漏变量问题。因为即使我们能够精准地测量人们对某种APP的满意度,但我们并不清楚是什么原因影响了满意度?为什么不同的人会形成不同的满意度?影响人们满意度的因素是否也会同时影响人们的分享意愿和行为?通过与满意度具有相关性的变量并无法充分解释这些关键问题,除非被用于测量满意度的变量是纯外生性的——这也就属于后文中将要讨论的工具变量法,是与结构方程模型中的测量模型完全不同的一种识别策略。
在当前传播学的定量研究中,对一些概念的误解也可能是导致多元回归模型误用的原因,这些误解主要包括随机样本、R^2以及控制变量等。随机样本只是使得总体中的每一个潜在受访者以同等的概率被选中为实际的受访者。但是这一点,并不能够使得(Y1i,Y0i)⊥Ti成立,当然也无法剔除遗漏变量的影响。R本身并不包含任何关于因果关系的信息,它只是一个刻画观察数据线性拟合程度的指标。但这并不表示一个较大的R^2就能够剔除遗漏变量对因果关系的影响,也不能认为较小的R^2就表示解释变量对因变量没有影响。另外,R^2可以用来比较解释变量数目相同的线性回归模型,但不应被用于比较解释变量数目不同的线性回归模型。也就是说,我们不能通过增减因变量并观察R^2变化的情况来说明模型的改进情况,更不能通过这种手段来验证因果关系。因为在回归模型中只要增加自变量,R^2就绝对不会减小,通常只会增大。
另外,在传播学的定量研究中,解释变量和控制变量的区别也远远不只是名称上,或者是研究人员“感兴趣”和“不太感兴趣”这么简单。它们在多元回归方程中的目的和作用,回归系数以及显著性水平的含义等等方面都是完全不同的。简单来讲,解释变量是用来帮助我们检验其与因变量之间在传播学上的理论关系的,而控制变量是帮助我们使得这些统计检验更有意义。也就是说,通过引入控制变量,多元回归模型确实能够有效地帮助科研人员检验解释变量与因变量之间的理论逻辑关系。在新闻传播学中,对控制变量的使用有两类常见错误。第一类错误是在对控制变量的作用的认识上,通常表现为把控制变量与解释变量等同对待。第二类错误是第一类错误的延伸,主要表现为在模型中引入了“坏”的控制变量或剔除了“好”的控制变量。一个非常常见的例子就是在媒体使用对社会资本的影响这一类的研究中,家庭收入作为一个“好”的控制变量却往往被各类模型剔除在回归之外。
总之,由于遗漏变量在观察研究中的普遍存在,通过简单的多元回归模型或结构方程模型是无法帮助我们有效地进行传播学理论检验的。这既是社会科学定量研究方法与统计学的区别之一,也是为什么需要研究设计并运用恰当的数据识别策略来帮助我们进行因果推断的原因。
三、识别策略、外生性与随机分配径
一个典型的传播学或其他社会科学的研究通常会包括理论构建(theory building)、理想性实验(ideal experiment)、识别策略(identification strategy)和统计推断(statistical inference)四个重要部分。尽管在广义上一个研究设计可以完全包括以上这四个部分,但是从研究方法的角度来看,难度最大,对研究成败影响也最大的往往是中间两个部分。当然,在不同类型的研究设计中,理想性实验和识别策略的重要性和难度也会有差别。比如一项实验研究中的重点和难点经常是在分配机制(assignment mechanism)和处置(treatment)等与实验设计相关的问题,识别策略相比之下要简单得多。而在一项基于观察数据的研究中,情况则可能相反,研究人员可以很容易获取调查数据,甚至是大量的随机样本,但发现并使用适当的数据识别策略的难度往往都很大。
各类实验和准实验方法通常在随机分配机制方面比非实验方法有着天然的优势,因为在这些方法中研究人员可以人为地或者通过某种“自然”来控制分配机制。但是在传播学中,大量的科研工作由于受各种因素的影响还不得不依赖观察数据展开。当我们把研究设计中的数据生成部分——“理想性实验”——用生成观察数据的方式,比如一项全国性的调查来替代时,数据识别策略对于一项研究的成败是至关重要的。此时的研究设计也就从“理想性实验——数据识别策略——统计推断”变成“观察数据获取——数据识别策略——统计推断”。当数据的获取不是那么困难的时候,很可能也就意味着这些数据很难被直接应用于理论检验。于是,针对遗漏变量等内生性问题的数据识别策略在一项传播学的定量研究中便自然成为了整个研究设计的核心问题。
目前在新闻传播学的定量研究中,绝大多数的文章都采用了“观察数据获取——统计推断”的研究模式并依据统计推断的显著性来进行因果推断,识别策略在这些研究中都被误解为随机样本或是忽略了。在前文我们已经说明了,传播学理论研究中遇到的最大挑战就是遗漏变量问题。实验方法备受推崇的一个主要原因就是一个实验设计通常可以通过对处置(treatment)的随机分配来解决遗漏变量的困扰。在观察研究中,我们就只能通过一定的数据识别策略来解决这个困扰。目前传播学领域流行的直接应用多元回归或结构方程模型的“观察数据获取——统计推断”模式,可以研究变量间的相关关系,但对于处理内生性问题以及传播学理论构建的帮助极为有限。
所谓的识别策略是2021年诺贝尔经济学奖得主Agtrist和Kruener(1999年)提出的一个术语,它被用来描述科研人员如何运用非实验数据来逼近一个理想性实验的研究。简单来讲,在一项传播学研究中,所谓识别策略就是通过某些手段把观察数据中与实验数据(假如这一项研究真的可以通过一个理想性实验来完成)比较相似的那一部分数据识别出来,然后利用这一部分数据来研究感兴趣的变量之间的因果关系。也就是说,研究人员希望寻找到在他们关心的解释变量的取值上具备一定的随机性的那一部分数据。在识别策略的具体应用中,研究人员往往需要通过寻找某些外生性的因素来解决随机性,这些外生性因素在解决随机性的同时也就可以至少部分地解决内生性问题,从而消除或减小参数估计的偏差。
外生性与随机性是两个不同但在研究方法中又联系紧密的概念。回到第二部分的回归方程(2.1),在绝大多数的教科书中都会提及我们用(2.1)来进行因果关系识别的一个假设前提是Xi是一个外生变量(exogenous variable),也就是E(ηi|Xi)=0,或者说Xi是由(2.1)这个系统以外的因素决定的变量。但在潜在结果框架(potential outcome framework)下,使得β表示因果关系的前提是Xi的随机性。只是,当Xi是一个外生变量时,通常我们也就可以认为Xi在(2.1)式中就具备了随机特征,也就满足了(Y1i,Y0i)⊥Xi|Zi。从更严格意义上来讲,外生性并不必然代表着随机性,只是随机性往往伴随着外生因素而来。
值得进一步强调的是,识别策略之所以重要也很困难,并不是因为某种观察数据的获取——比如一项调查——没有使用随机样本(random sample),而是因为研究人员都是被动地得到这些观察数据的,他们无法控制处置变量(treatment variable)的分配。在以因果推断和理论构建为目的的传播学研究中,不使用随机样本并不是一个大的问题,可是如果没有随机分配处置变量,条件独立假设就很难成立。此时如果不对观察数据进行有效地识别,统计推断在遗漏变量等内生性问题(endogeneity)的影响下,可以帮助研究人员得到变量之间的相关关系,但很难帮助研究人员进行理论检验。
问题与解决问题的手段可能同时出现。在前面分析中,我们说明了当使用观察数据进行传播学理论研究时,研究人员已经无法控制解释变量的分配,只能面对具有内生性的解释变量。但是,完全内生化了的失去全部随机性的解释变量也比较罕见。在现代社会科学的定量研究设计中,几乎都是通过寻找外生性因素的影响来完成数据识别策略,从而使得条件独立假设成立,继而展开统计推断。如果借助外生变量可以很好地完成识别策略,也就意味着在非实验条件下我们感兴趣的解释变量很可能“就像随机分配出来的那样好”。
四、基于观察数据的常用识别策略
(一)断点回归设计
断点回归设计(Regression Discontinuity Design,RDD)最早被Thistle-thwait和Campbell用于教育学研究中。但是在相当长的时间里,RDD一直没有得到重视,直到上个世纪90年代末和本世纪初,在一批经济学家特别是在Hahn、Todd和Klaauw等人讨论了RDD中的识别策略和因果效应的估计方法后,逐渐成为了社会科学实证研究中最受欢迎的一种观察研究设计。这种研究设计也被认为是随机实验的近亲,能够非常有效地解决参数估计的内生性问题。
清晰断点回归(Sharp RDD)和模糊断点回归(Fuzzy RDD)是被应用得最广泛的两种RDD设计。模糊断点回归设计可以看作是工具变量法的一种特殊形式,所以本节主要讨论清晰断点回归设计在传播学中的应用。
在传播学中,有许多研究都涉及个体的状态或行为是否会影响其对媒介的使用和信任等方面,而这些个体的行为或状态经常是受一些外生性的规则制约。还有一些媒介会通过一定的规则来规范个体对媒介的使用。例如某些APP对不同的个体发布视频时长的规定。这些外生性的政策规定也可能会对比如说,视频的质量、粉丝的数量等产生影响。比如,我们可能感兴趣的问题是大学教育是否会影响个体对微博的使用,而能否上大学取决于高考录取分数线;或者工作/退休状态是否会影响人们对官方媒体的使用和信任,而退休时间是由法律规定的,等等。
前文已经说明了通过调查数据和多元回归模型很难对上面这些理论问题做出一个有效的检验。在前一个例子中,上大学的人和没有上大学的人,最直观的区别主要就在于他们的高考成绩不同,但同时这些人又在许多方面都有差异(比如智商、家庭收入、父母教育水平等等)。这些差异,如果是无法观测到的,就可能成为影响我们识别大学教育是否会影响个体对微博的使用的遗漏变量,他们会同时影响学生的高考成绩和对媒体的使用。在后一个例子中,个体的工作/退休状态是由一个外生变量年龄决定的,但是年龄又会对个体的许多方面产生影响,这些影响很可能又进一步影响他们对官方媒体的使用和信任。毕竟,我们很难相信70多岁已经退休了的老人和40多岁的职工之间在官媒信任上的差异都源自于他们的工作/退休状态。
下面,我们仅以上大学的例子来说明如何应用清晰断点回归设计展开此项研究(对于工作/退休状态的案例只需要把高考成绩替换为出生日期即可)。用yi表示微博的使用程度,Di代表上大学的状态,其中Di=1表示上了大学;Di=0表示没有上大学。假设某省2021年高考录取分数线为c,学生的高考成绩为分配变量xi,也有学者称分配变量为参考变量,英文文献中多为assignment variable, running variable, forcing variable等名称。于是图2中的c点便构成了能否上大学的一个断点(cutoff)。接下来,我们考虑断点回归分析的识别策略。
首先,处置状态Di取决于分配变量。如果学生的升学状态完全由高考成绩决定,那么那么Di=1(xi≥c), Di=0(xilimx→c-E[Di|xi=x]。也就是说,成绩大于录取分数线c的学生升入大学/进入处置组的概率更高。其次,在x0=c点的附近,成绩对于微博使用yi的影响应该是一个连续函数。例如,对于一个成绩在xi=c-1分没有升入大学的学生来讲,假如他的成绩是xi=c但是也没有升入大学,那么这1分的差异对于yi产生的影响应该是连续的。换句话说,当观察到xi=c-1,没有升入大学的学生与xi=c但是升入大学的学生在微博使用yi方面产生了显著差异时,我们有理由认为这种差异可能主要是由上大学与否造成的,而不是由于成绩上仅仅1分的微小区别带来的。也就是说:
于是,在断点x0=c附近的一个小领域内,上大学的状态近似一个理想的随机实验,(Y0i,Y1i)⊥Di|xi∈δ(x0=c),δ>0。尽管Di是由学生的成绩xi决定的,但是在分数线x0=c附近(c-δ,c+δ)处置组和控制组的分配,xi≥c从而Di=1,或者xiy1i=y0i+τ我们便可以用如下的线性回归模型(4.1)来评估大学教育对微博使用情况的影响(参见图2)。
其中,τ代表了在断点附近大学教育对微博使用情况的影响。如果E[y0i|xi]=f(xi)是一个非线性函数,则可以采用如下的非线性回归模型:
在实际应用中,个体的状态被断点完全决定的情况,也就是适用于清晰断点回归的情况是比较少的,更常见的情况是个体的状态以不同的概率分布在断点左右,这种模糊断点回归实际上是接下来要讨论的工具变量法的一种特殊情况。
(二)工具变量法
工具变量法可能是社会科学实证研究中使用得最为广泛的一种识别策略,基于工具变量的研究设计在许多重大的理论研究中都做出了突出贡献。例如,制度会影响经济发展吗?这似乎是一个不言自明的论断,但是要真正证明它却极其困难,因为这一理论受到了内生性问题的全面困扰。通过控制所有影响经济增长的变量,然后观察好的制度是否伴随着经济发展是不可行的,因为至少从逻辑上不仅制度可能影响经济发展,经济发展也会影响社会的制度变迁。即使制度有连续性,用过去的制度来研究当今的经济发展通常也不可行,因为过去的制度是如何形成的呢?那些影响过去制度形成的因素同样也可以是影响今天经济增长的因素。那么是否存在一种外生性的制度,并且这种制度的形成与经济发展无关呢?Acemoglu、Johnson和Robinson发表了一篇极具影响力的论文,他们发现可以利用早期殖民地的死亡率作为一个制度工具变量来研究制度对经济发展的影响。早期的欧洲殖民者在美洲和非洲等地建立起了不同的殖民制度,一些是掠夺性的,一些是建设性的。这些制度对于原殖民地而言显然是被强加的、外生的,但是又受殖民地的死亡率影响。简单来讲,对于死亡率较低的地区,欧洲殖民者就更倾向于移民定居并建立起类似母国的制度;而对于死亡率较高的地区,他们就更倾向于建立起掠夺性的制度。
在讨论工具变量法之前,我们先回顾一下遗漏变量或者混淆因素给传播学理论研究带来的困扰,因为这些问题本身就暗含了可以利用工具变量来解决这些内生性问题的思路。假设我们想要研究的一个问题是学校质量与学生使用网络游戏或者手机的关系,用yi表示网络游戏消费时间,Di代表学生升入的学校的质量,其中Di=1代表升入重点中学,Di=0代表升入普通中学,Wi为一组观察到的控制变量。
如果我们把学校的质量视为“制度”,学生使用网游的时间看作是“个体发展”,那么这里面临的内生性问题与前文中制度和发展的关系有些类似。只是在这个微观传播学的研究中遗漏变量问题可能更严重,因为总有一些诸如能力、动机这些无法观察到的变量作为混淆因素存在。由(4.3)式我们可以发现学校质量与网游时间之间的相关程度,但是即使在我们引入一组可观察到的控制变量Wi的情况下,学校质量前的回归系数ρ仍然不代表其对网游时间的影响。假设某个难以观察到的变量,比如学习动机Mi,无法被引入Wi,那么Mi这一类混淆因素便会成为研究学校质量对网游时间影响的大麻烦,因为立志成为一名比如说传播学教授的学习动机会作为一个混淆变量同时影响学生是否进入重点中学以及玩网游的时间,而这种影响却被遗漏在了(4.3)式的残差项中。
实际上,(4.3)中的残差项εi可能包含了三类分别与Di或yi有关的变量。对于那些与yi和Di都无关的随机因素我们自然不需要考虑。第一类是只与因变量yi相关但是与Di无关的,如果能把这一类变量引入Wi,自然可以加强对yi的解释。不过这一类变量即使没有引入(4.3)也并不会影响我们识别Di与yi之间的因果关系。第二类就是诸如学习动机Mi这些难以观察到的混淆因素,当这些变量被遗漏在εi中就会对我们识别因果关系造成极大的困扰。假如真的可以把所有这一类变量全部都引入(4.3)式,构建一个长回归模型,ρ当然也就表示Di对yi的影响。第三类变量就是只与解释变量Di相关但与yi等是无关的。假设存在这么一个变量Zi,我们称其为工具变量,并且Cov(Di,Zi)≠0,Cov(Zi,εi)=0,Cov(Zi,Wi)=0。对于(4.3)式而言,Zi是一个纯外生的只与Di相关的变量。更进一步的,如果Zi对yi有影响,那么这种影响也只能是通过Di间接产生的。那么:
(4.4)式中的分子实际上是yi对Zi的总体回归系数,而分母是Di对Zi的总体回归系数。图3进一步说明了通过工具变量和两阶段最小二乘法(two stage least square,TSLS或者2SLS)来推断Di对yi影响的思路。首先,由于Mi这些变量同时与Di和yi相关,Di与yi也相关,那么(4.3)式中学校质量前的回归系数ρ实际上包括了两类信息,一类是诸如能力、动机这些不可观测因素对yi的影响,另一类是Di对yi实际的因果影响。由于Mi这类不可观察变量被“遗漏”掉了,所以他们对yi的影响实际上通过Di表现在了ρ中,通过(4.3)式很难识别出这些遗漏变量的影响。其次,假如我们发现存在一个工具变量Zi只与Di相关,当Zi的变动引起Di的变动时,Di的变动自然就是纯外生性因素引起的,进而如果也观察到yi的变动,那么此时Di与yi之间的相关性就是Di对yi的因果影响,因为由Z—>D—Y这一因果路径已经剔除了混淆变量造成的偏误。
工具变量虽然令人神往,要寻找到好的工具变量却绝非易事,因为工具变量的两个要求,相关性和外生性经常是自相矛盾的,与解释变量相关的变量通常也都会跟扰动项相关。例如在学校质量与网游时间的案例中,一般影响学生进入重点学校或普通学校的因素通常也都会与学生的能力、动机等等因素相关。所以,许多好的工具变量往往来自于“自然实验”。幸运的是,目前全国的一些城市,例如武汉、西安等地,中学择校开始按照抽签的方式来进行。用Zi=1表示抽中重点中学,Zi=0表示抽中普通中学。那么抽签的结果取决于运气这个外生因素,Zi与学生升入的学校类型,也就是Di之间显然应该是高度相关的,并且与εi等因素不相关。于是,我们可以采用如下的两阶段回归模型来估计Di对yi的因果影响。
在前文我们提到,模糊断点回归可以看作是工具变量法的一种特例,也可以用上述的两阶段回归来进行统计推断。在法律、政策和制度等外生性规定中,年龄、收入、成绩等这些变量虽然不能完全确定个体的某种状态,但是会对其产生极大的影响。例如在前文断点回归的例子中,如果考生的升学情况不是由分数线严格确定的(但是会极其显著的影响),就可以在(4.5)中,用Zi这个虚拟变量来表示考生成绩与分数线之间的关系,然后再使用两阶段回归来研究大学教育与媒体使用之间的关系。在分数线附近一个较小的范围内,Zi当然也是一个外生性变量。
在前面的讨论中,我们关心的遗漏变量问题主要集中在个体层面和横截面数据。近年来传播学中的许多研究也开始关注地区层面(比如国家、省市等)或者与“时间”有关(例如疫情前后)的传播效果、媒介使用和媒介信任等问题。在这些研究中涉及到的遗漏变量也往往与地区或时间有关,也就可以考虑采用面板数据和双重差分模型等识别策略。
(三)双重差分模型
双重差分模型最早可能起源于英国物理学家John Snow对伦敦霍乱疫情的研究。在Snow之前,传统观点都认为霍乱是一种通过空气传播的呼吸系统疾病,Snow虽然怀疑霍乱应该是一种消化系统的传染病,但又一直没有充足的证据。在1848年英国第二次爆发霍乱疫情时,供应伦敦地区的两家自来水公司Southwark & Vauxhal(SV)和Lambeth(L)的水源都来自泰晤士河下游。但是在1852年,L公司把工厂迁往了受下水道污染较少的泰晤士河上游来获取水源。1854年伦敦再次爆发严重的霍乱疫情时,Snow认真地研究了感染人群以及地区分布后发现,在第二次霍乱疫情期间,两家公司供水地区的霍乱死亡率没有多大差别,但是在1854年,L公司供水地区的霍乱死亡率远远低于SV公司供水地区的霍乱死亡率。由此,Snow才查明了霍乱的真正传播方式。
在社会科学的因果推断中,真正的难点并不是判断因在前、果在后,也不是发现原因和结果之间的共变性,而是要排除其他可能的解释——遗漏变量恰恰就是在这一点上制造了最大麻烦。在前文讨论的RDD、IV等识别策略中,对遗漏变量的处理通常都是利用与解释变量相关但与误差项不相关的外生性因素来完成研究设计的。可能正是由于广泛的包括在各类方法教材中对诸如(4.7)式中的某个解释变量Di的外生性的强调,许多传播学研究中误以为只要Di是一个外生的政府政策或者外生处置比如疫情,就可以借助如下的(4.7)式以及横截面数据来研究Di对yi的影响。
假设Di表示疫情严重程度,Di=1为疫情相对严重,Di=0为疫情相对不严重,Yi代表风险传播行为,进一步假设Di是纯外生的,E[εi∨Di]=0。在这个近年来颇为流行的健康传播研究中,Di的外生性只是来研究Di对Yi影响的一个必要而非充分条件。首先,Di的外生性并不能保证其随机性。火山爆发、地震等灾害等出现都是外生的,但都与地理环境有关,并不都是随机的。非随机性也意味着不可重复性,许多外生性的政策以及疫情都是难以重复的,所以这些研究中参数估计的误差会比较大。更重要的是,在外生性或者随机性假设下,暗含着控制组与处置组之间在Di以外的其他可观察和不可观察方面是相似的、可比的(comparable)——这个至关重要的假设在众多自然实验研究中却往往是不成立的。关于控制组和处置组在此类研究中样本选择方面的造成问题,这里不做讨论。所以,与(2.1)式相比,(4.7)式只是部分地消弱了内生性影响,至少在理论上并不是一个理想的研究设计。当控制组与处置组在许多方面不可比时,双重差分模型就是研究一个外部冲击的常用识别策略。
回到疫情对风险传播行为影响的案例中(在DID模型中,疫情也可以是政府政策、自然灾害等一个外部冲击),假设Di=1代表湖北地区(经历过严重疫情)的网民,Di=0代表山东地区(没有经历过严重疫情)的网民,Yi代表风险传播行为。采用类似(4.7)式,简单地比较E(Yi|Di=1)-E(Yi|Di=0),显然是无法识别疫情对风险传播行为的影响的,因为湖北地区的网民可能在疫情爆发前的风险传播行为就与山东地区的网民不同,所以我们需要知道疫情爆发前的情况。假设T是时间,T=1代表疫情发生之后,T=0代表疫情发生之前,那么两地区网民的风险传播行为在疫情前后的变化为:ΔYi=1/Ni∑(Yi,T=1-Yi,T=0),也就是组内两个时期传播行为分别的变化。我们可以设想,假如没有疫情出现的话,两地的网民在健康传播行为方面的变动趋势是相同的,也就是时间对各地网民健康传播行为的偏效应是一致的,那么疫情对风险传播行为的实际影响就应该是:
相对于其他识别策略来讲,双重差分模型并不要求外生政策或外部冲击的随机性或者控制组与处置组的可比性,它只要求假设处置组在没有受到外部冲击的情况下与控制组拥有相同的变动趋势,也就是共同趋势(common trend)假设。如果没有疫情发生,湖北、山东两地网民的风险传播行为应该会随时间遵循共同的趋势路径发展,于是我们就可以用如下的回归模型来研究疫情对风险传播行为的影响:
图4和表1都清晰地展示了双重差分模型和(4.8)式的基本思路。山东(控制组)与湖北(处置组)的网民在疫情爆发后的风险传播行为也许是不同的,但是两组之间的差异很可能在疫情爆发前(T=0)就已经存在,在图表中这个初始差异为β。假如没有疫情出现的话,时间对各地网民健康传播行为的偏效应应该是一致的,也就是两地的网民在健康传播行为方面的变动趋势是相同的,表现为图4中具有相同斜率的两条直线。但是,在外部冲击也就是疫情突然爆发后(T=1),两地的网民在健康传播行为方面的差异为β+τ。在这个研究中的处置条件是在某一期、某个地区是否经历了严重疫情。在T=0时,没有疫情发生;在T=1时,只有Di=1经历了严重疫情,所以实际的处置条件是Di×T,τ=(β+τ)-β才是疫情的处置效应。
在上述的分析中,我们假定地区的风险传播行为会遵循共同趋势假设。更现实的情况可能是,某个地区因为本身网民比例较高,所以会带来该地区风险传播行为更高的增长率。那么,共同趋势假设可能需要在引入控制变量的条件下才能成立。在给定一组控制变量Xi的条件下,就可以用如下的(4.9)双重差分模型来评估外部冲击的影响:
五、讨论与总结
一个理想的实证研究是不需要统计推断的。但是在社会科学,尤其是在涉及大量的有关个体观念、态度和认知的传播学观察研究中,统计推断通常是检验相关理论假说必不可少的手段。因为观察数据存在与生俱来的内生性问题尤其是遗漏变量问题,所以有效的统计检验不仅需要传播学理论为指导,更需要有效的研究设计来剔除遗漏变量的影响。在目前的新闻传播学主流期刊上,采用“观察数据——多元回归分析/结构方程模型”的研究模式可以检验变量之间的相关性或进行预测,但是由于缺乏对观察数据的有效识别策略,这些当前的流行方法都无法进行有效的因果理论检验。
再次以社交APP使用与社会资本的关系这一类颇为流行的研究为例。利用调查数据以及多元回归模型或结构方程模型通常情况下都不能帮助我们来验证大学生的微信使用状况是否会提高其社会资本相关关系不是因果关系,这种老生常谈在当前的传播学研究中不得不被再次强调。从较为传统的因果关系思想来看,社交APP比如微信使用与社会资本之间因果关系的判定需要三个条件:(1)时间顺序上(temporal order),微信使用在前,社会资本的变动在后;(2)微信使用与社会资本在统计学意义上有关联(association)或者共变(co-variation);(3)社会资本变动的结果不能由其他变量来解释(elimination of spuriousness)。
在以上传统的判定因果关系的三个条件中,第一和第二点通常比较容易满足,最为困难的就是第三点,要排除其他解释。在使用观察数据的条件下,要剔除混淆因素和遗漏变量的干扰,聚焦于微信使用和社会资本的变动是极为不易的。使用满足条件独立假设的多元回归模型在理论上可行,但这就要求研究人员要把所有“好”的控制变量,也就是所有的混淆因素都引入回归模型并剔除所有“坏”的控制变量,也就是那些受处置条件影响的因素。在传播学中有大量的研究都会被动机、能力等不可观测因素影响,所以条件独立假设下的多元回归更多的是方法理论上的意义。
本文在分析传播学定量研究中的难点的基础上,详细讨论了断点回归设计、工具变量法和双重差分模型这三种社会科学中常用的数据识别策略。在断点回归设计中,研究人员可以利用法规、政策等外生性因素形成的分配变量在“断点”附近的随机性来研究局部平均因果效应(Local Average Treatment Effect,LATE)。这种方法在过去的20年里,已经成为社会科学领域中最受青睐的识别策略之一。在工具变量法中,对遗漏变量的处理通常都是利用与解释变量相关但与残差项不相关的外生性因素来完成研究设计的。工具变量法尤其是同质性工具变量法虽然在思想上比较容易理解,但是寻找恰当的工具变量并不是一件容易的事情,一个好的工具变量往往是“自然赋予的礼物”。在横截面数据无法解决不可观测的混淆变量影响时,我们还可以考虑使用面板数据和双重差分模型来剔除遗漏变量的影响。相对于横截面数据中的识别策略,双重差分模型不需要政策的随机性或控制组与处置组的可比性,只要共同趋势假设是合理的,这种识别策略就可以灵活运用在与外部冲击有关的传播学研究中。不论是断点回归设计、工具变量法还是双重差分模型,这些研究设计都可以也都应该在未来的传播学定量研究中发挥重要作用。
载《新闻与传播研究》2022年第12期
囿于篇幅,公号舍去注释,完整版本请见刊物。
来源:再建巴别塔