摘要:多元线性回归分析要求自变量X与因变量Y之间存在线性关系,可以通过绘制散点图或者查看变量之间的相关系数的方式进行。
本篇是风暴统计平台教程系列的第五章,将具体介绍相关与线性回归模块的使用。
相关与线性回归方法模块包含的主要功能有:
定量数据差异性分析(教程:如何开展定量数据批量差异性分析)
相关分析(绘制散点图、计算相关系数)
线性回归分析(批量单因素、多因素、逐步回归法)
线性回归森林图(回归结果可视化,自动生成森林图)
涵盖了定量结局研究中统计描述、回归分析的图与表。下面我们就对各功能展开详细介绍。
相关分析
多元线性回归分析要求自变量X与因变量Y之间存在线性关系,可以通过绘制散点图或者查看变量之间的相关系数的方式进行。
风暴统计的相关分析十分简单,只需要选入x轴变量(通常对应自变量)、y轴变量(通常对应因变量)。
即可得到我们相关分析的散点图与相关系数。
散点图主要对两变量间相关关系的有无进行大致描述,并不能准确反映变量间的关系密切程度。
而相关系数r就是对两变量间关系密切程度的数学度量,主要反映了强度与方向。| r |≤1,绝对数值越靠近1,表明相关关系越密切;在相关性P<0.05的前提下,r为负值代表负相关,r为正值代表正相关。
关于相关系数r的计算,又分为直线相关与秩相关:
Pearson:直线相关分析,要求双变量是正态/近似正态定量变量,散点图不存在线性趋势时需使用秩相关。
Spearman:秩相关分析,要求双变量定量或等级,一般倾向用于至少一个变量为偏态或等级变量的关联分析。
Kendall:专用于两等级变量间的相关分析,结果与秩相关近似。
除此之外,平台还支持以下细节调整:是否计算相关系数、是否拟合趋势线、自定义散点图各部分颜色。
线性回归分析
确认X与Y之间的线性关系后,来到回归分析界面,首先,选入我们研究的因变量、自变量。
其次,选择自变量的筛选方式,包括P阈值,回归方法。
P阈值决定了单因素分析时,P值小于多少会进入多因素回归。一般为0.05,当进入多因素回归的变量过少时,也可以放宽要求,0.1,0.2也是可以的。
回归方法大致有三类,先单后多法,逐步回归法,根据P
先单后多法(是否开展逐步回归选"否"),根据单因素回归的P阈值限制变量进入多因素模型。当P阈值选择不限制时,单因素的全部变量进入多因素回归。
逐步回归法,分为双向、向前、向后。对符合P阈值要求的变量开展逐步回归。
根据P,本质上也是一种逐步回归,可以保证最终多因素模型中的每个变量P
完成选择后,就得到我们单因素与多因素分析的结果了。
结果解读:
协变量_年龄:P
协变量_饮酒:P
最后,可以调整小数位数,默认情况下,P值保留3位小数,其他保留2位小数。
完成后可以直接下载三线表格,支持excel版与word版!
这里再拓展一下平台的R语言原始输出结果,主要用于残差与共线性诊断:
1.R语言的原始输出结果
风暴统计是基于R语言搭建的,这里给出了原始的输出结果,像是95%置信区间是没有直接给出的,需要根据Estimate、Std.Ettor自行计算。
2.回归分析残差图
①Residuals vs Fitted(残差图域拟合图):判断残差是否具有线性关系。一般散点随机分布在虚线上下,认为自变量和因变量之间是线性关系。
②Q-Q Residuals(残差Q-Q 图):判断残差是否呈正态分布。若符合正态分布,则散点会在比较好的集中在对角线上。
③Scale-Location(位置尺度图):判断残差是否符合方差齐性原则。若符合方差齐性原则,则黑色散点会随机分布在水平线两侧。
④Residuals vs Leverage(残差与杠杆图):判断离群点、高杠杆值与强影响点。
3.VIF
这里可以用于模型中自变量间共线性的诊断。优先根据修正后的值(GVIF^(1/(2*Df)))决策,尤其是对分类变量。
≥2:需警惕共线性(保守阈值)
≥3.16(即√10):明确存在共线性
线性回归森林图
这里提供了线性回归结果的单因素、多因素森林图,对三线表结果增加了可视化转换。
左侧还设置了对应一系列菜单栏,可以对图形的各个方面进行自定义调整。
点估计与置信区间设置、选择森林的变量、其他颜色设置,主要是对图像显示内容与各部分样式进行修改,鼓励大家多尝试进行了解。
坐标轴与标签设置,这里重点标注了2个地方,大家可以关注一下。
字号,当我们的森林图因为变量过多而显示不完全时,可以通过调整字号大小,来使图像显示完整。
X轴设置,当因为置信区间过宽或过窄,导致图像中的点估计与参考线显示不全面时,可以通过限制x轴范围或者进行转换,使图像显示更加匀称美观。
最后,可以将编辑好的森林图下载下来,支持pdf、jpeg、pnd、tiff格式,推荐下载pdf格式,可以对图像中的文字进行编辑。
温馨提示:如果下载的图像显示不完全,可以将曲线页面由A4调整为自定义,设置合适的长和宽之后再进行下载。
以上就是关于风暴统计平台相关与线性回归方法模块的详细教程。
下篇预告:Zstats风暴统计教程(6):线性回归控制混杂偏倚
来源:统计医研库