写论文须知:常用实证模型解析,有一款慎用

B站影视 2025-01-08 10:21 3

摘要:最近在辅导学生的时候会发现,导师们对于回归模型的应用呈现一种“不主张”的态度,会特别强调“尽量不要用回归模型”,不是因为它不好用,而是因为用的太多,并且逻辑过于简单,所以,这篇文章就目前比较常用的数据分析模型进行解析。

最近在辅导学生的时候会发现,导师们对于回归模型的应用呈现一种“不主张”的态度,会特别强调“尽量不要用回归模型”,不是因为它不好用,而是因为用的太多,并且逻辑过于简单,所以,这篇文章就目前比较常用的数据分析模型进行解析。

(1)计量经济学领域

DID(双重差分法)模型

常用于评估政策干预或外部冲击的效果。例如,研究某地区实施新的教育补贴政策后,该地区学生的辍学率是否下降,就可以将实施补贴政策的地区作为实验组,未实施的地区作为对照组,比较政策实施前后两组辍学率的差异。

模型形式

适用于能清晰界定实验组和对照组,且政策冲击具有外生性的情况。

回归断点设计(RDD)模型

当个体是否接受某种处理(如政策干预)取决于某个变量(如考试成绩、收入水平等)是否超过某一临界值时适用。例如,研究大学录取分数线对学生未来就业收入的影响,分数线就是断点。分为精确断点回归(Sharp RDD)和模糊断点回归(Fuzzy RDD)。模糊断点回归中,个体接受处理的概率在断点处有非零的跳跃变化,但不是完全确定的。

精确断点回归中,个体接受处理的概率在断点处发生跳跃,可表示为:

(Di是与断点相关的虚拟变量)

关键在于找到合适的、外生的断点变量,在教育、医疗、经济政策评估等领域应用广泛。

工具变量法(IV)模型

应用于处理回归模型中存在的内生性问题。例如,研究教育对收入的影响,可能存在能力等不可观测因素既影响教育水平又影响收入,此时可寻找一个与教育相关但与误差项不相关的工具变量,如当地学校到住所的距离。

一般有两阶段最小二乘法(2SLS)。第一阶段,将内生变量Xi对工具变量Zi和其他外生变量进行回归,得到预测值^Xi,第二阶段,将被解释变量对和进行回归,即

注意!需要找到有效的工具变量,这在经济、社会等领域解决内生性问题时经常使用。

线性回归模型(Linear Regression)

预测数值型变量,如预测房价、股票价格走势等。在房地产领域,可根据房屋面积、房龄、周边配套等因素预测房价。

模型形式

其中是Y预测目标,Xi是特征变量,Bi是系数,E是误差项。

适用于变量之间存在线性关系的数据,在数据较为简单、特征与目标变量关系近似线性的场景中广泛应用。

逻辑回归模型(Logistic Regression)

用于二分类问题,如判断客户是否会违约、邮件是否为垃圾邮件等。在金融领域,可根据客户的信用记录、收入情况等因素判断其违约可能性。

模型形式:通过逻辑函数将线性回归的结果映射到区间[0,1],即

表示给定特征X时,Y=1的概率。

对于分类边界较为简单、特征与类别之间存在一定线性关系的二分类问题效果较好。

决策树(Decision Tree)

广泛用于分类和回归问题。例如,在医疗诊断中,根据患者的症状、检查结果等特征判断疾病类型;在预测销售量时,根据不同的市场因素进行回归预测。

通过对特征进行不断划分,构建树形结构。每个内部节点是一个特征上的测试,分支是测试输出,叶节点是类别标签(分类)或预测值(回归)。

能处理非线性关系,对数据的分布要求不高,但容易过拟合。

(3)统计学领域

时间序列模型(Time Series Model)

分析随时间变化的数据,如预测股票价格、气温变化、电力负荷等。例如,电力公司可根据历史电力消耗数据预测未来时段的用电需求,合理安排发电计划。

常见的有自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)及其扩展自回归积分移动平均模型(ARIMA)等。以 AR (p) 模型为例,

适用于具有时间依赖性的数据,要求数据平稳或通过差分等方法使其平稳。

生存分析(Survival Analysis)

研究事件发生的时间,如患者从患病到康复或死亡的时间、产品从投入使用到发生故障的时间等。在医学研究中,分析不同治疗方法对患者生存时间的影响。

包括 Kaplan - Meier 估计、Cox 比例风险模型等。Cox 模型形式为

在医学、生物学、可靠性工程等领域应用广泛,处理包含删失数据的情况。

整体看来,除了回归分析,我们还有很多的模型可以选择,但是都需要基于数据的实际情况来看,部分学生在建模、理解模型上比较吃力,所以可以适当的使用工具来帮忙,可能从模型形式上来看是有些唬人的,但是只要一一拆解来看,是能够很快上手应用的,让论文整体看上去更有质感。

来源:炎彬教育

相关推荐