2025高教杯数学建模大赛全流程,从数据处理、建模到模型评价

B站影视 内地电影 2025-09-03 15:15 3

摘要:有些第一次参加数学竞赛的同学可能觉得自己还没准备好,临近比赛感到紧张很正常,但需调整心态——数学建模比赛本就是学习过程,遇到不会的知识及时搜索、现学现用即可,直接参赛就是最好的学习方式。

2025年全国大学生数学建模竞赛将于9月4日正式举行!

有些第一次参加数学竞赛的同学可能觉得自己还没准备好,临近比赛感到紧张很正常,但需调整心态——数学建模比赛本就是学习过程,遇到不会的知识及时搜索、现学现用即可,直接参赛就是最好的学习方式。

无论题目是怎样的,掌握核心的模型及数据处理方法都是关键的。今天将按流程分别介绍数学建模过程中可能用到的处理方法及模型算法。

数学建模常用方法大致可分为四大部分:数据处理、描述性统计、模型算法、模型评价,如下图:

接下来将分别进行介绍说明。

一、数据处理

国赛的数据处理是指进行数据的清洗和变换,预处理的质量会直接影响到后续建模和预测的准确性。数据清洗也就是我们常说的缺失值处理和异常值处理,数据变换是指对数据进行标准化、归一化等无量纲化处理,常见的数据预处理方式见下图:

1、异常值处理

异常值是指显著偏离主体数据的观测值,可能引发模型偏差、统计效力下降及分布假设失效。

1)检测异常值

检测异常值的常用方法主要包括以下两类:统计方法(如Z-score法、IQR箱线图法)、可视化方法(如散点图、箱线图)。Z-score通过标准差识别偏离均值过远的点;IQR箱线图则基于四分位距划定正常范围,之外的点视为异常。

2)处理异常值的方法

异常值处理通常有以下4种方式:

2、缺失值处理

对缺失值进行处理方法通常有删除、填充、插值3类方法,说明如下表:

对于异常值和缺失值的处理,可以使用SPSSAU【数据处理】模块的【异常值】方法进行处理,操作如下:

3、量纲处理

数学建模很多算法在使用前均需要进行数据处理。例如熵值法计算权重前需要对正向指标进行正向化处理,负向指标进行逆向化处理。SPSSAU提供17种数据无量纲化处理方法,常用的如标准化、中心化、归一化、均值化、正向化、逆向化等,说明如下:

在SPSSAU【数据处理】模块选择【生成变量】可对数据进行处理,操作如下图:

在研究时具体应该使用哪一种处理方式呢,其实并没有固定的要求,而是结合建模实际情况进行选择。

二、描述性统计

描述性统计是数学建模的关键预处理步骤,通过量化分析(均值/方差)和可视化工具(箱线图/直方图)等快速把握数据分布特征与变量关联性,为后续建模提供数据质量评估与策略依据。

描述性统计分析方法整理表格如下:

描述性统计分析基本步骤:

计算基本统计量:均值、中位数、标准差等

绘制可视化图表:直方图、箱线图等

分析数据分布:是否正态分布,是否有偏态

检查相关性:查看变量间的关系

三、模型算法

数学建模关键的步骤就在于模型的选择与构建,根据问题的性质选择合适的模型类型,如数学建模中常见的三大模型评价模型、预测模型、分类模型。

1、评价模型

评价模型是数学建模中用于量化分析、比较和优选方案的工具,通过系统化的指标体系和算法对复杂问题进行客观评估。常用的方法如层次分析法、熵值法、TOPSIS等,说明如下表:

SPSSAU软件操作:

以熵值法为例,上传数据至SPSSAU平台,在【综合评价】模块选择【熵值法】,将变量拖拽至右侧分析框中,点击开始分析按钮即可得到分析结果:SPSSAU输出标准三线表分析结果如下,用户可直接将结果粘贴到建模论文中,无需手动调整格式:更多权重计算和综合评价的方法可查看下方文章:

2、分类模型

分类模型是基于数学算法的数据划分工具,通过分析历史数据的特征规律,构建预测规则以实现新数据的自动归类。其核心是通过学习已知样本的分布模式,推断未知样本的类别归属。典型的方法包括聚类分析、判别分析、logistic回归、机器学习。

1)聚类分析

聚类分析是一种无监督学习方法,通过将数据集中相似的对象自动分组,从而发现数据内在的结构与模式。常用的聚类分析分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类其中前三种聚类方法是按行聚类(R型聚类),分层聚类是按列聚类(Q型),最常用的为K-means聚类,各自适用场景说明如下表:

2)判别分析

判别分析是一种基于已知分类样本建立判别函数,用于对新样本进行分类的统计方法,广泛应用于模式识别、机器学习和生物统计学等领域。判别分析有很多种,比如Fisher判别、距离判别、Beyes判别等,其中Fisher判别使用频率最高

3logistic回归

logistic回归可以用于分类,它的核心思想是利用逻辑函数将线性回归的结果转化成一个概率值,这个概率值可以用来进行分类。logistic回归分析可细分为二元logistic回归、多分类logistic回归、有序logistic回归、条件logistic回归。各自适用场景说明如下表:

4)机器学习

机器学习算法中常用于分类的模型包括决策树、随机森林、KNN、神经网络、朴素贝叶斯、支持向量机等等。具体说明如下:

SPSSAU【机器学习】模块提供多种算法,无需编程即可完成分析,如下图:

3、预测模型

数学建模预测模型是一种利用数学模型和统计方法来预测未来可能发生的结果的模型。它通常基于历史数据和已知信息,通过建立数学模型来分析问题,并预测未来的发展趋势。预测类常见的方法有时间序列类预测、回归分析进行预测、机器学习进行预测等

1)时间序列预测

时间序列数据预测是利用按时间顺序排列的历史数据,分析其变化规律并推测未来发展趋势的方法,广泛应用于金融、气象、经济等领域。比较常用的时间序列数据预测方法有ARIMA预测、指数平滑法、灰色预测模型、VAR模型、季节Sarima模型,说明如下:

(2)回归分析预测

回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。常用方法如多元线性回归、logistic回归、多项式回归等,说明如下:

(3)机器学习预测

机器学习用于从数据中学习模式和规律,并利用这些知识进行预测通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。常用方法及说明如下:

四、模型评估

在模型构建与分析过程中,模型评价是不可或缺的环节。选用恰当的评价指标,有助于客观衡量模型性能,并指导后续的优化与改进。不过,评价指标的选择需结合具体模型和应用场景而定。

1、回归模型评价指标

回归模型常用的评价指标可分为以下三大类:

第1类:回归模型拟合优度的评价指标,包括R方与调整后R方值;

第2类:回归模型拟合值与真实值的差异程度的评价指标,常用的包括MSE、RMSE、MAE、MAPE;

第3类:极大似然法的估计准则,包括AIC值和BIC值。

指标说明如下:

SPSSAU在进行分析时,会自动输出相应的评价指标,如线性回归输出部分结果如下:

【提示】:综合使用不要只依赖一个指标。应结合RMSE/MAE看误差大小,结合R²看解释度,再结合AIC/BIC来权衡复杂度和拟合效果。

2、分类模型评价指标

分类模型常用评价指标说明如下:

【提示】:选择指标时需根据具体业务需求和对不同类型错误的容忍度来决定。例如,在医疗诊断中,可能更关注召回率以减少漏诊;而在垃圾邮件检测中,可能更关注精确率以减少误判。SPSSAU决策树模型输出部分评价指标结果如下:

以上就是数学建模竞赛可能涉及到的大部分模型以及方法,使用SPSSAU系统都可以快速完成,即便是不会建模的小白,也可以冲刺一下奖项哦~今天的干货有点长,看到这里的同学是真爱粉无疑了。预祝看到这里的同学都能拿国一!!!

来源:萱萱课堂

相关推荐