摘要:在上一期,我们已经讲完了线性回归分析的基础知识,这期开始讲简单线性回归分析,我们主要从简单线性回归分析介绍、使用条件及案例的SPSS操作演示这几方面进行讲解。
作者/风仕
在上一期,我们已经讲完了线性回归分析的基础知识,这期开始讲简单线性回归分析,我们主要从简单线性回归分析介绍、使用条件及案例的SPSS操作演示这几方面进行讲解。
简单线性回归分析介绍
简单线性回归分析就是寻找因变量数值随自变量的变化而变化的直线趋势,并在散点图上找到一条这样的直线,相应的方程被称为直线回归方程,通过回归方程解释两变量之间的关系更为精确。如果将两事物的取值分别定义为变量%和可用回归方程y = a +bx来描述关系,则有两点需要注意:
变量x为称为自变量,而y为因变量,一般来讲应当有理由认为由于x的变化而导致y发生变化。y不是一个确定的数值,而是对应于某个确定x的群体的y值平均值的估计。
进行直线回归分析前,先作散点图,以初步判断两变量之间是否存在回归趋势,该趋势 是否为线性趋势,以及数据中是否存在异常点。
相关分析和回归分析具有密切的联系,如果要用统计指标对变量联系的密切程度进行描述,则应当进行相关分析;如果希望反映一个变量变化时对另一个变量的影响大小,则应当使用回归分析。相关系数大小反映了两个变量之间的密切程度,而回归系数反映了 x和y对应的平均数量变化关系,两者的正负号和假设检验是一致的,但两者没有定量的对应关系。
估计值与每个实测值之间的差被称为残差,它刻画了应变量y除自身x以外的其他所 有未进入该模型或未知但可能与y有关的随机和非随机因素共同引起的变异,但不能由x直接估计的部分。
回归方程中的参数a和b 一般通过最小二乘法原理估计出来,所谓最小二乘法原理就是指使得坐标中每一对x变量和y变量所对应的点到回归直线纵向距离的平方和,或者说残差平方和最小。
简单线性回归分析使用条件
1.线性关系:因变量与自变量之间必须存在线性关系。这通常通过图形分析(如散点图)来验证,确保数据点大致沿一条直线分布。
2.数据独立性:观测值之间应相互独立,即残差之间不存在自相关。这一条件通过残差的自相关检验来验证。
3.正态性:误差项应服从正态分布或近似正态分布。这通常通过残差的正态检验来完成,如使用直方图或正态概率图来观察是否服从正态分布。
4.方差齐性:对应于不同的自变量值,因变量的方差应相等。这一条件可以通过残差的方差齐性检验来评估。故残差分析是回归诊断的一个重要环节,考察残差是否服从正态分布可以通过绘制标准化残差的直方图和正态概率图(PP图)进行,因变量与自变量间关系非线性、残差方差不齐、 观察值间不独立等情况均会导致残差的直方图和正态概率图表现岀非正态。
这些条件确保了简单线性回归分析的有效性和结果的可靠性。在实际应用中,通常需要检查这些条件是否得到满足,以确保分析结果的准确性。
案例的SPSS操作演示
分析示例
某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ/ d)与体重(kg)数据(见下表),试拟合直线回归模型?
研究假设
研究问题:基础代谢与体重之间的回归分析。
数据录入
1. 变量视图
名称 y 标签 基础代谢
名称 x 标签 体重
2. 数据视图
操作流程
(一)操作流程(预分析)散点图
1. 图形画板模板选择程序是一个傻瓜式的操作界面,下图的基本界面是用来设定入选变 量和图形,多个变量的选择需要按计算机键盘上的CTRL 键,同时选择基础代谢和体重两个变量,右侧则选择需要的图形散点图。
2.“详细”对话框需要设定X 轴和Y 轴,如果按照默认,图形默认X 轴为基础代谢,Y轴为 体重,因此我们需要重新设置,将X 轴设为体重,Y 轴设为基础代谢。
3. 结果解释
从图中可以看出,因变量Y基础代谢和自变量X之间呈直线趋势,线性关系成立。
(二)操作流程(线性相关分析)
1.该图为线性回归方程的主对话框,因为为简单回归分析,设定非常简单。
(1)因变量(D): 因变量(dependent variable),又称反应变量(response variable),在简单线 性回归和多重线性回归当中因变量只有一个,本例指基础代谢。
(2)自变量(1):自变量(independent variable),又称解释变量(explanatory variable)或预测 因 子(predictor), 本例指体重,即体重影响基础代谢。
2 . 结果解释
(1)该表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一个自变量,所以只出现了模型1(在多重回归中会依次出现多个回归模型),该模型中体重X 为进入变 量,没有移出的变量,具体的进入/退出方法为输入(enter), 即全部进入模型。如果在多重线性回归中,选择不同的拟合方法则表格内容出现变化,但对于简单线性回归没有多大意义。
(2)该表为拟合模型的拟合优度情况简报,其重要指标为R 方 (R Square),称为决定系数 (coefficient determination),为相关系数的平方。R² 取值在0到1之间,且无单位。它反映了回 归贡献的相对程度,即在因变量Y 的总变异中回归关系所能解释的比例。在实际应用中,通 过决定系数反映回归的实际效果。如本例中,R²=0.930, 说明40~60岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其他因 素来解释,说明用体重来预测基础代谢量的实际效果较佳。
(3)该表继续对拟合模型进行检验,其假设检验为总体回归系数β是否为0,在本例当中
指基础代谢与体重之间是否存在线性关系,其检验方法为方差分析或t 检 验。本例中F= 158.361,P
(4)下表为线性回归分析中最重要的一个表格,给出了常数项和变量的系数(包括非标准 化系数和标准系数),并对其是否有统计学意义进行检验, 一般常数项检验值不用看,t检验的结果与前面表格的方差分析结果是一致的。最后得到的回归方程为Y=1106.788+61.423X。
参考:《临床医学研究中的统计分析和图形表达实例详解》
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
来源:孙医生工作室