临床研究统计思维之特征筛选

B站影视 欧美电影 2025-09-26 17:46 1

摘要:在上一节,已经更新了数据预处理,这节主要讲特征筛选,主要从特征筛选的核心目的与原则、特征筛选的常用方法、特征筛选的流程与注意事项、应用场景举例及特征筛选小结这几方面进行讲解。

作者/风仕

在上一节,已经更新了数据预处理,这节主要讲特征筛选,主要从特征筛选的核心目的与原则、特征筛选的常用方法、特征筛选的流程与注意事项、应用场景举例及特征筛选小结这几方面进行讲解。

在统计分析中,特征筛选(Feature Selection) 是从大量候选变量(特征)中筛选出与研究目标(如结局变量、预测结果)最相关的子集的过程。其核心目的是减少冗余信息、降低模型复杂度、提升分析效率和结果可解释性,同时避免 “维度灾难”(高维数据导致模型过拟合、计算量激增)。在临床研究、机器学习、数据分析等领域,特征筛选是连接数据预处理与模型构建的关键步骤。以下从特征筛选的目的、原则、常用方法及应用场景等方面详细讲解:

特征筛选的核心目的与原则

1. 核心目的

(2)降维:从成百上千的变量中提取关键特征,减少分析变量数量(如从 100 个基因标志物中筛选出 10 个与癌症预后相关的核心基因)。

(2)去噪:剔除与结局无关或干扰性强的变量(如测量误差大的指标),提升模型稳定性。

增强可解释性:简化模型(如从 20 个变量的预测模型简化为 5 个),便于临床解读和应用(如医生更易理解少数关键指标的风险预测)。

(3)避免过拟合:高维数据易导致模型 “记住” 训练集噪声而非规律,筛选后可提高模型泛化能力。

2. 基本原则

(1)关联性:优先保留与结局变量(如疾病发生、生存时间)有统计学或临床关联的特征。

(2)独立性:减少高度共线的特征(如 “体重” 和 “BMI” 高度相关,保留其一即可),避免信息冗余。

(3)临床意义:统计学显著的特征需结合专业背景(如已知的疾病风险因子),避免保留无实际意义的 “假阳性” 特征。

(4)可行性:筛选后的特征需易于测量(如临床常规检测指标优于侵入性检查指标),便于后续应用。

特征筛选的常用方法

根据筛选依据,特征筛选方法可分为统计学方法、机器学习方法和混合方法,具体选择需结合数据类型(如连续 / 分类)、研究目标(如关联分析 / 预测模型)及变量维度(低维 / 高维)。

1. 基于统计学的筛选方法(适用于低维数据,如临床常规指标)

通过单因素或多因素统计检验,量化特征与结局的关联强度,设定阈值筛选变量。

(1)单因素分析筛选

对每个候选特征与结局变量单独进行关联检验,保留显著关联的特征,是最基础的筛选步骤。

1)连续结局(如血压值、生存时间):

①连续特征:用 Pearson/Spearman 相关系数、t 检验(两组)、方差分析(多组),保留 P 值

②分类特征:用方差分析(比较不同类别组的结局均值)、Kruskal-Wallis 检验(非正态分布)。

2)分类结局(如患病 / 未患病、有效 / 无效):

①连续特征:用 t 检验(两组)、Wilcoxon 秩和检验(非正态),或 Logistic 回归单因素分析(计算 OR 值及 P 值)。

②分类特征:用卡方检验、Fisher 精确检验(小样本),保留 P 值

3)示例:研究 “糖尿病患病风险” 时,单因素分析显示 “年龄(P=0.002)、BMI(P=0.01)、家族史(P=0.03)” 与患病显著相关,而 “身高(P=0.3)” 不相关,初步保留前 3 个特征。

(2)多因素分析筛选

单因素筛选可能纳入冗余或共线特征,需通过多因素模型进一步筛选独立关联的特征。

1)逐步回归法(Stepwise Regression):

基于 AIC(赤池信息准则)或 BIC(贝叶斯信息准则),通过 “向前引入”“向后剔除” 或 “双向筛选” 保留最优特征子集:

①向前引入:从无变量开始,逐步加入 P 值

②向后剔除:从全变量开始,逐步删除 P 值 >α(如 0.1)的特征。

③逐步筛选:结合前两者,引入新特征后重新检验已有特征,剔除变得不显著的变量。

适用于线性回归、Logistic 回归、Cox 回归等模型。

2)方差膨胀因子(VIF)筛选:

用于检测并剔除高度共线的特征(共线性会导致模型系数不稳定)。VIF>10 提示严重共线,需保留临床意义更明确的特征(如保留 “BMI” 剔除 “体重”)。

2. 基于机器学习的筛选方法(适用于高维数据,如基因、影像特征)

当变量数量远大于样本量(如 1000 个基因标志物对应 200 例患者),传统统计方法易失效,需用机器学习方法压缩维度。

(1)基于树模型的特征重要性

随机森林、XGBoost、LightGBM 、最优子集(全子集回归)、主成分分析法(PCA)、支持向量机(SVM)、梯度提升聚类分析等树模型可输出 “特征重要性评分”,反映特征对模型预测的贡献度:

①原理:通过计算特征分裂节点时对 “不纯度”(如 Gini 指数、信息熵)的减少量,或袋外数据(OOB)误差的降低量,评分越高说明特征越重要。

②操作:训练树模型后,按重要性评分排序,选取前 N 个特征(如 Top20)或设定阈值(如累计贡献度 > 80%)。

③优势:可处理非线性、高维数据,对缺失值和异常值较稳健。

(2)正则化方法(Regularization)

通过对模型系数施加惩罚,压缩冗余特征的系数至 0,实现 “筛选 + 建模” 一体化:

①LASSO 回归(L1 正则化):

在损失函数中加入系数绝对值的惩罚项(λ∑∣β i∣),使不重要特征的系数 β=0,仅保留非零系数的特征。适用于高维稀疏数据(如多数基因不表达)。

②弹性网络(Elastic Net):结合 L1 和 L2(岭回归)正则化,既筛选特征又缓解共线性(如基因表达中多个基因高度相关时)。

③关键:通过交叉验证选择最优惩罚系数 λ(使模型误差最小的 λ 值)。

(3)递归特征消除(RFE)

逐步剔除最不重要的特征,通过交叉验证选择最优子集:

1)步骤:

①用全部特征训练模型,计算特征重要性;

②剔除最不重要的 1 个(或 N 个)特征,重复训练;

③直到剩余预设数量的特征,选择交叉验证性能最优的子集。

2)适用:支持向量机(SVM)、逻辑回归等模型,需结合特征重要性评估方法(如系数大小)。

3. 基于临床先验知识的筛选(适用于所有场景)

统计学方法可能遗漏有临床意义的特征(如某指标虽 P>0.05,但已知是疾病经典标志物),需结合专业知识补充筛选:

例如:研究冠心病时,“胆固醇水平” 即使单因素分析 P=0.06,仍因明确的临床意义被纳入模型。

需在方法部分说明 “基于临床先验保留的特征”,避免结果偏倚。

特征筛选的流程与注意事项

1. 典型流程

(1)Step 1:初步筛选:用单因素分析剔除明显无关的特征(如 P>0.2),缩小范围。

(2)Step 2:深度筛选:对剩余特征,用多因素回归(低维)或 LASSO / 随机森林(高维)进一步筛选,保留核心特征。

(3)Step 3:验证与调整:通过交叉验证评估筛选后特征的模型性能(如 AUC、C 指数),若性能下降,需放宽筛选阈值或补充临床特征。

2. 注意事项

(1)避免多重检验偏倚:单因素分析中多次检验(如 100 个特征)易导致假阳性,需校正 P 值(如 Bonferroni 法、FDR 校正)。

(2)样本量与特征数量匹配:筛选后的特征数量不宜超过样本量的 1/10(如 100 例样本最多保留 10 个特征),否则模型易过拟合。

(3)稳定性评估:通过 bootstrap 抽样(重复抽样并筛选),检验特征入选的一致性(如某特征在 90% 的抽样中被保留,说明稳定)。

(4)不盲目依赖统计学阈值:例如,某特征 P=0.06 但临床意义明确,可保留并在讨论中说明;反之,P=0.04 但无生物学依据的特征需谨慎解释。

四、应用场景举例

1.临床预后模型:从 50 个临床指标(年龄、肿瘤大小、分期、基因标志物等)中,筛选出 5 个独立预后因子,构建简洁的列线图(Nomogram)。

2.基因芯片数据分析:从 2000 个基因中,用 LASSO 回归筛选出 10 个与癌症复发相关的基因,用于开发诊断试剂盒。

3.影像组学研究:从 CT 影像中提取 1000 个纹理特征,通过随机森林重要性评分筛选出 20 个特征,构建肺癌良恶性鉴别模型。

总结

特征筛选的核心逻辑是 “从关联到独立,从统计到临床”:先通过单因素分析缩小范围,再用多因素或机器学习方法提取独立特征,最后结合专业知识验证调整。其目标不仅是简化模型,更是提升结果的可靠性和实用性,为后续的模型构建(如预测、诊断)奠定高质量基础。

特征筛选小结

一般是先临床基线的统计,后面用不用方法来进行特征筛选,常用先单后多、逐步回归、Lasso回归、随机森林、最优子集回归、主成分分析法、支持向量机、梯度提升等方法

多变量统计分析的方法很多,常用的有析因分析、协方差分析、多元线性回归分析、Logistic回归分析、聚类分析、判别分析、主成分分析与因子分析等

这些方法可以单用或者合用,先后顺序没有固定,一般来说,先单因素筛选,再用其它方法筛选。

第一种方法:先单后多(传统方法)

最常见的变量筛选方法是先单因素后多因素,即先进行单因素分析,再将单因素分析“有意义”的变量一起,纳入多因素模型。这样操作最为简单,并且在大多数情况下是可行的。然而,在某些情况下,先单后多存在一定局限,例如,自变量数目过多,自变量间存在共线性,或者缺失值较多而不愿舍弃掉含有缺失值的样本。

除此之外,先单后多自身也存在一定的争议。例如,对于单因素分析“有意义”的变量,不同人也有不同的理解:有人认为单因素分析p

当因变量为连续性变量时,单因素方法主要相关或简单线性回归;②当因变量为分类资料或等级资料时,单因素分析方法主要是是t检验、方差分析、卡方检验、秩和检验、单因素Logistic回归;③当因变量为生存资料时,单因素分析方法主要有t检验、卡方检验、秩和检验Kaplan-Meier生存曲线、单因素Cox回归;④当因变量为竞争风险时,单因素分析方法主要有Fine-Gray检验。

注意:相关性分析只能针对自变量为连续性变量或等级变量进行分析,而对分类自变量无能为力。对于简单线性回归,无论是连续性自变量、等级变量还是分类自变量,均可以对齐进行单因素筛选。对于分类自变量,要将其处理成哑变量(即是将其中一个水平作为参照,其它水平和它比较,比如有4个水平,则变成3个哑变量,不指定,则第一个为参照组。如果为二分类变量,直接变成因子型即可,其实也是有比较的了,第一个为参照组了)或因子型

第二种方法:逐步回归

当您有许多变量并且想确认有用的预测变量子集时,逐步回归就是一种合适的分析方法。

如果在一个方程中,忽略了对因变量Y有“显著”影响的自变量,那么所建立的方程必然与实际有较大的偏离。然而,是不是纳入的自变量越多越好呢?显然不是。如果纳入的自变量越多,那么残差平方和RSS及其自由度都将减小,但自由度减小的幅度更大,从而使均方误差增大,最终影响预测精度。因此,选择一个“最优”方程十分有必要。

什么是“最优”方程?“最优”方程需要满足两个条件:首先方程能够反映自变量与因变量之间的真实联系,其次方程所使用的自变量数目应尽可能少。

在建立多因素模型时,经常会从影响因变量Y的众多因素中挑选部分因素作为自变量建立“最优”模型。此时可以通过逐步回归方法,挑选出合适的自变量。

采用逐步回归法,模型会一次添加或剔除一个自变量,直到达到某个判停准则为止。逐步回归法可分为三种。

(1)向前法:每次添加一个自变量到模型中,直到增加的变量不会使模型有所改进为止。

(2)向后法:从模型包含所有自变量开始,每次删除一个自变量,直到会降低模型的质量为止。

(3)向前向后法:每次添加一个变量,但是在每一步中,变量都会被重新评价,对模型没有贡献的变量将会被剔除,同一个自变量可能会被添加、剔除几次,直到获得“最优”模型为止。

注意:从多因素回归模型中删除一个自变量X后,回归平方和减少的部分,称为X对Y 的偏回归平方和;筛选变量的检验是对其偏回归平方和进行检验,并不是对回归系数β进行检验;逐步回归存在一定争议,虽然可能得到一个好的模型,但是不能保证模型是最佳模型,因为不是每一个可能的模型都被评价了。

第三张方法:正则化技术(Lasso回归)

对于高维数据,如基因组学、蛋白组学、影像组学数据,普通的变量筛选方法并不见效或者需要消耗高昂的计算机算力成本(时间成本)。另外,普通的变量筛选方法也难以避免模型的过度拟合,以及自变量间的多重庆线性问题。

通过正则化技术(线性回归的正则化改进),我们会在残差平方和(RSS)最小化过程中,加入一个正则化项,此正则化项被称为收缩惩罚。这个收缩惩罚项包含了一个希腊字母λ及对偏回归系数和权重的规范化,最终的目标是使残差平方和与收缩惩罚之和最小化。因此,正则化技术对于高维度数据,可以对偏回归系数进行限制,避免多重共线性间题的出现,甚至将侧回归系数缩减至0;同时由于增加了正则化项,可以有效避免过拟合的发生。

正则化技术包括岭回归(ridge regression)、Lasso、弹性网络(elastic network)。岭回归也叫线性回归的 L2 正则化(平方根函数),它将系数值缩小到接近零,但不删除任何变量。岭回归可以提高预测精准度,但在模型的解释上会更加的复杂化。Lasso 回归也叫线性回归的 L1 正则化,该方法最突出的优势在于通过对所有变量系数进行回归惩罚,使得相对不重要的独立变量系数变为 0,从而被排除在建模之外。因此,它在拟合模型的同时进行特征选择。弹性网络是同时使用了系数向量的L1 范数和L2 范数的线性回归模型,使得可以学习得到类似于Lasso的一个稀疏模型,同时还保留了 Ridge 的正则化属性,结合了二者的优点,尤其适用于有多个特征彼此相关的场合。

岭回归:在岭回归中,规范化项是所有系数的平方和,称为L2-norm(L2范数)。在我们的模型中就是试图最小化RSS+λ(sumβj^2)。当λ增加时,系数会缩小,趋向于0但永远不会为0。岭回归的优点是可以提高预测准确度,但因为它不能使任何一个特征的系数为0,所以在模型解释性上会有些问题。为了解决这个问题,我们使用LASSO回归。

LASSO回归:区别于岭回归中的L2-norm,LASSO回归使用L1-norm,即所有特征权重的绝对值之和,也就是要最小化RSS+λ(sum|βj|)。这个收缩惩罚项确实可以使特征权重收缩到0,相对于岭回归,这是一个明显的优势,因为可以极大地提高模型的解释性。如果LASSO这么好,那还要岭回归做什么?当存在高度共线性或高度两两相关的情况下,LASSO回归可能会将某个预测特征强制删除,这会损失模型的预测能力。举例来说,如果特征A和B都应该存在于模型之中,那么LASSO可能会将其中一个的系数缩减到0。可见岭回归与Lasso回归应该是互为补充的关系。

通过Lasso(套索回归),可以对估计出的系数进行限制,避免多重共线性的发生。有时甚至可以将系数缩减至0,以达到筛选变量的目的。同时由于在残差平方和RSS最小化的过程中,加入了正则化项,可以有效地避免过度拟合。

注意:Lasso可能会将存在共线性的自变量强行剔除。临床上很多指标都会存在共线性。一旦这些指标被剔除,就无法分析其与因变量Y的关系。

有时我们做出来的结果每一个自变量均存在非零系数,即本次Lasso并没有剔除任何一个自变量。因为只有变量数目较多,其远远大于样本量,且变量间存在严重多重共线性时,Lasso才有可能剔除自变量。目前Lasso误用很严重,对于一般的临床资料,不建议使用Lasso。

弹性网络:弹性网络的优势在于,它既能做到岭回归不能做的特征提取,又能实现LASSO不能做的特征分组。重申一下,LASSO倾向于在一组相关的特征中选择一个,忽略其他。弹性网络包含了一个混合参数α,它和λ同时起作用。α是一个0和1之间的数,λ和前面一样,用来调节惩罚项的大小。请注意,当α等于0时,弹性网络等价于岭回归;当α等于1时,弹性网络等价于LASSO。实质上,我们通过对β系数的二次项引入一个第二调优参数,将L1惩罚项和L2惩罚项混合在一起。通过最小化(RSS + λ[(1 - α)(sum|βj|^2)/2 + α(sum|βj|)]/N)完成目标。

第四种方法:随机森林

随机森林是有监督的学习方法,是一种常见的机器学习方法,其不仅涉及对样本的重抽样,还可以对自变量进行随机选取,从而生成众多决策树。在预测模型的构建过程中,通过随机森林可以同时生成多个预测模型,并将模型的结果汇总以提升准确率。

随机森林涉及对样本和自变量进行抽样,从而生成大量的决策树。对每个样本来说,所有决策树依次对其进行预测,预测结果的众数或平均数作为这一样本的最终预测结果。生成决策树未用到的样本也可以由决策树估计,与其真实结果比较,即可得到带外误差。当没有验证数据时,这是随机森林的一大优势。

随机森林的优势如下:可以处理自变量较多的研究;可以评估自变量的相对重要性;建模时使用了无偏估计,模型外推能力强;当数据存在较多缺失值时,其结果扔可以维持一定的稳健性;可以处理混合数据(数值型变量和因子型变量);决策树选择部分样本及部分特征,一定程度上避免过拟合;决策树随机选择样本并随机选择特征,模型具有很好的抗噪能力,性能稳定;能够处理高维度数据,并且不用做特征选择,能够展现出哪些变量比较重要;对缺失值不敏感,如果有很大一部分的特征遗失,仍可以维持准确度;训练时树与树之间是相互独立的,训练速度快,容易做成并行化方法;随机森林有袋外数据obb,不需要单独划分交叉验证集。

随机森林的劣势如下:可能有很多相似决策树,掩盖真实结果;对小数据或低维数据可能不能产生很好分类;产生众多决策树,算法较慢。

尽管随机森林是决策树的集合,但其行为却大不相同。

我们将根据 3 个重要参数将随机森林与决策树区分开来:过拟合、速度和过程。

过度拟合—在决策树中不存在过度拟合,因为随机森林是由数据子集形成的,最终输出基于平均或多数评级。

速度- 随机森林算法比决策树相对慢。

过程- 随机森林随机收集数据,形成决策树,并对结果进行平均。它不像决策树那样依赖任何公式。

第五种方法:最优子集(全子集回归)

当我们进行模型构建时,通常我们获取到的自变量并不全是有用的,这其中存在着与因变量不相关或者相关性极小的变量。针对这种情况,我们可以根据经验筛选对因变量影响较大的自变量。

然而,通常统计学工作者并不是临床领域的专家,对可能影响因变量的自变量并不了解,于是我们需要运用算法获得最接近真实模型的回归模型,如最优子集回归。

最优子集回归,即对p个自变量的所有可能组合分别使用回归进行拟合。总共存在2p个可用于建模的变量子集,根据残差平方和(RSS)与R2的改善情况,从中选择一个最优模型。

最优子集选择的思路很容易理解,就是把所有自变量的组合都拟合一遍,比较一下哪个模型更好,选出最优模型。例如有3个自变量a、b、c,那么所有组合形式包括a、b、c、a+b、a+c、b+c、a+b+c共7种组合,再考虑到不纳入任何变量的情形,因此合起来共有8种情形。总的来说,如果你有p个自变量,那总共就有2p种情形需要拟合。对于例16.3的4个变量,总共有24=16种组合。

最优子集回归的优点很明显,能够找到所有组合中最佳的一种情形,这是非常理想的一种状态。也有人对该法诟病,主要就是一点:如果自变量数目很大,那么这种组合数是非常惊人的,可能计算量会非常大。

总的建议:如果你的自变量不是很多,建议首选最优子集回归。怎样才算“变量不多”?只要你的电脑能够很快给出结果,那就没有问题。如果变量确实太多,电脑无法运行最优子集,可以考虑先用逐步回归快速扫描,剔除那些较为明显的意义不大的变量;然后再用最优子集法选择最优模型。

全子集回归,模型判定,调整R²,值越模型越优,BIC和CP值越小越好。

第六种方法:主成分分析法(PCA)

主成分分析是以最少的信息丢失为前提,将原有变量通过线性组合的方式综合成少数几个新变量;用新变量代替原有变量参与数据建模,这样可以大大减少分析过程中的计算工作量;主成分对新变量的选取不是对原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息;同时选取的新变量之间互不相关,能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

主成分分析的适用性

主成分分析法用于高维数据的降维处理,其可以将存在相关的大量变量(变量太多的话,可以通过单因素筛选,排除不相关的因素)转换为不相关或者相关性极小的主成分。在转换之后,主成分包含原始变量的大量信息。从统计的角度,在进行主成分分析之前,对数据集检查方法的适用性是有必要的,尽管在实践当中这样的步骤总被忽略。主成分分析是针对数据集的协方差矩阵或相关系数矩阵进行的,下面两种方法都是相关性检验,只有相关性充分,才符合降维的要求。

若变量存在多重共线性,可采用主成分回归,即先将存在多重共线性的变量做主成分分析合并为1个变量,然后再将合并成的新变量和其余自变量一起纳入模型做回归。

优点:

1.可消除评估指标之间的相关影响。因为主成分分析法在对原始数据变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。

2.可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。

3.主成分分析中各成分是按照方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为

缺点:

1.在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

2.主成分的解释其含义一般多少带点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的”弊”。

3.当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

主成分分析与因子分析比较

概念:

主成分分析(PCA分析)是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。

求解主成分的问题,实际上就是对X的协方差矩阵(或相关系数矩阵)进行特征分解,即求其特征值和特征向量。特征值代表了特征的重要程度,特征向量代表了坐标旋转后的特征方向。

因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

不同点:

主成分分析:若共有p个变量,实际应用中一般不是找p个主成分,而是找出m (m

个主成分就够了。只要这m个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。

因子分析:就是要找出某个问题中可直接测量的具有一定相关性的若干指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。

即主成分分析中的主成分个数与原始变量个数是一样的,有几个变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。而因子分析则需要事先确定要找几个成分,也称为因子(factor),然后将原始变量综合为少数的几个因子,以再现原始变量与因子之间的关系,一般来说,因子的个数会远远少于原始变量的个数

优缺点:

主成分分析:

1. 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次,它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次,它在应用上侧重于信息贡献影响力综合评价。

2. 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。

3.PCA试图找到变量之间隐藏的线性相关性。因此,如果变量具有非线性关系,则该技术不能很好地执行,并且实际上它可能具有误导性。而多维宿放(MDS)试图保留数据的拓扑结构,并且它本质上是非线性变换

因子分析:

1. 优点:第一,它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。

2. 缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。

在进行主成分分析之前,需要判断需要选取多少个主成分。判断的准则很多,包括:

● 根据经验或者理论知识判断主成分个数。

● 根据解释变量方差的积累值的阈值来判断保留的主成分个数。

● 通过变量间的关系矩阵来判断需要保留的主成分个数。

基于特征值进行判断,根据Kaiser-Harris准则建议保存特质大于1的主成分。

● 使用Cattell碎石图进行判断,碎石图绘制了特征值与主成分数量,这类图可以清晰地展示特征值与主成分个数之间的关系,图形变化最大之前的主成分都可以保留。

●平行分析法、其原理是模拟一个与原数据集相同大小的矩阵来判断提取的特征值,若真实的某个特征值大于随机数据矩阵的平均特征值,则可以保留。

第七种方法:支持向量机

支持向量机(Support Vector Machine,SVM)是机器学习中一种有监督的算法,可以用于解决分类和回归问题。支持向量机是将数据映射成空间中的点,这个映射要形成一个足够宽的间隔,将数据区分开来。对于新样本,其映射在间隔的哪一边就划分成为对应的类别。如果数据不能够线性分类,支持向量机可以通过核技巧将数据映射到高维空间,然后在高维空间对其进行区分。另外,支持向量机也可以解决非监督的问题,有一种基于支持向量机的聚类算法,支持向量聚类。

支持向量机是在1963年,由弗拉基米尔万普尼克和亚历克塞泽范兰杰斯发明的,并逐渐被应用于解决分类和回归的问题,但是当时支持向量机对非线性关系的数据并没有很好的区分能力。在1992年,研究者提出了核技巧,用于创建非线性分类,解决数据中的非线性问题。之后,支持向量机得到了越来越广泛的应用。应用领域包括:文本分类、图像识别、手写字体识别、医学中基因、蛋白质的分类。

支持向量机有很好的预测效果,是解决分类和回归问题的优秀方法。

支持向量机是一种有监督的机器学习算法,可用于回归和分类,但是更常用于分类问题。总应量机通常也称为“大边距分类器”。更正式地说,支持向量机是在高维度或著无限中构造超平面,进一步区分样本的方法。分类的边界离最近的训练数据点越远越好。

支持向量机算法(Support Vector Machine,SVM),是一种二分类模型。对于二分类问题,如果我们从数据集是否线性可分角度来看的话(线性可分通俗理解就是画一条直线,可以直接将两种类型的数据分开),可以将数据分为三种类型,一类是线性可分的、一类是近似线性可分(有一些异常点导致无法线性可分)、一类是线性不可分。 这三种场景对应的SVM的算法分别是硬间隔SVM、软间隔SVM和非线性SVM。

第八种方法:梯度提升

集成(Ensemble)是合并多个机器学习模型来构建更强大模型的方法。在机器学习文献中有许多模型都属于这一类,但已证明有两种集成模型对大量分类和回归的数据集都是有效的,二者都以决策树为基础,分别是随机森林(Random Forest, RF)和提升树 (Boosted Tree, BT)。

梯度提升树(Gradient Boosting Tree, GBT)或称梯度提升决策树(Gradient Boosted Decision Tree, GBDT)是一种优化的提升回归树,在损失函数拟合方面,提升回归树损失函数拟合用的是平方损失,而梯度提升树则是使用损失函数的负梯度来拟合本轮损失的近似值,进而拟合一个回归树。梯度提升树在工业上用途广泛,属于最流行、最实用的算法之一。

梯度提升是一个机器学习技术,用来做回归和分类的问题,通过组合弱预测模型如决策树,来得到一个强预测模型。

梯度提升回归树的主要缺点是需要仔细调参,且训练时间相对较长(因为它是串行的,速度比不上随机森林),但其效果大部分情况下比随机森林好。

对于随机森林来说,回归树的数量越多,就越不容易过拟合,也就是越健壮,而梯度提升树不是这样:随着回归树数量的增加,一开始效果确实越来越好,但是随着回归树数量到达一个阈值,就很容易发生过拟合。训练中判断是否发生过拟合的最简单的方式就是看训练数据的方差和验证数据的方差,如果两者相差很大,那就表明发生了过拟合现象。

梯度提升树一般来说比随机森林的层数要低,因为梯度提升树追求的是多颗回归树之间的协作,它不需要每棵树都像随机森林的回归树一样要达到最好的回归效果,而且层数越深反倒容易过拟合。

与其它基于树的模型类似,这一算法不需要对数据进行缩放就可以表现得很好,而且也适用于二元特征与连续特征同时存在的数据集。与其它基于树的模型相同,它也通常不适用于高维稀疏数据。

第九种方法:聚类分析

聚类分析的概念及基本思想

聚类分析(cluster analysis)是事先不知道样本所属类别,仅根据现有样本将其分类,通过该算样本之间的相似度,将距离近的样本归为一类,实现物以类聚,人以群分。根据聚类对象不同聚类分析分为将样品归类的样品聚类(Q型聚类)和将指标归类的指标聚类(R型聚类),本节要介绍样品聚类。无论是样本聚类还是指标聚类,关键是要研究样本或指标间的相似程度,相的样品或指标归为一类,差别大的样品或指标归为不同类。反映样品或指标相似程度的数量指称有两种,一种叫相似系数,性质越接近的样品或指标,它们的相似系数的绝对值越接近1;另一种叫距离,它将每个样品看作p维空间的一个点,点与点之间的距离用某种度量测量,距离较近的归为一类。样品间的聚类常用距离来反映样品间的相似程度,指标间的聚类常用相似系数来反映指标间的相似程度。

相似系数-描述指标间相似程度:皮尔逊相关系数及夹角余弦针对连续变量,其值越大,个体间距距离越小。对于等级资料,常用的相似系数为Spearman秩相关系数和Kendall秩相关系数;对于分类资常用的相似系数为列联系数。

常用的聚类方法

1.系统聚类法

系统聚类法(hierarchical clustcring methods)先将n个样品(或指标)各自看成一类,然后计信息先确定的衡量各类相似程度的指标(如某种相关系数或距离),根据指标值计算结果,将各类最小或相似系数最大的两类合并成为一个新类,以此类推,每次归类都减少一类,直到所成样品(或指标)合为一类,这一归类过程可以用树形聚类图表示。

2.有序样品聚类法

如果需分析的样品(或指标)本身具有一定顺序,只能按顺序对样品(或指标)分类,也就题同一类样品必须相邻。

3.动态聚类法

动态聚类法又称逐步聚类法或快速聚类法,先将样品粗略地进行分类,然后逐步调整,直到整的分类结果合理为止,常用的有k均值聚类(K-means Cluster)。

目前应用最多的聚类方法是系统聚类。本节介绍的系统聚类方法主要针对样品聚类。

八种常用的系统聚类方法:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平均法或称Ward方法

1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。

2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。

3.购买视频课程赠送课程相关主题内容1对1答疑1年。

来源:孙医生工作室

相关推荐