2024 年第四届长三角高校数学建模竞赛赛题B题超详细解题思路+问题一二代码分享

本文主要是介绍2024 年第四届长三角高校数学建模竞赛赛题B题超详细解题思路+问题一二代码分享，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2024年第四届长三角数学建模竞赛B题详细解题思路

赛道B：人工智能范式的物理化学家

长三角分享资料（问题一代码+论文+思路）链接（18点更新）：
链接：https://pan.baidu.com/s/1lteKvIWNZ4v-Gd7oOcgO9w
提取码：sxjm

这一题目主要是数据科学和机器学习应用在化学研究上。您需要从提供的大规模数据集中发现规律，构建模型，预测化学物质的物理化学性质。这将包括数据预处理、特征选择、模型构建和验证。问题涉及使用先进的机器学习技术，如深度学习、贝叶斯优化等，来处理高维数据和预测未知的化学属性。

l 问题1：对给定数据进行预处理，研究y2与分子id之间的函数关系，尝试直接通过id预测y2

数据预处理：

缺失值处理：检查数据中是否存在缺失值，采用填补或删除等策略处理。

异常值检测：识别和处理数据中的异常值，如Z-score或IQR（四分位距）方法识别和处理异常值。

标准化/归一化：对特征数据进行标准化或归一化，以消除量纲的影响。

基于ID预测y2：

分析ID与y2之间的关系，探索是否存在线性或非线性关系。（绘制ID与y2的散点图，观察是否存在可识别的模式或趋势。）

根据探索结果，选择合适的模型（如线性回归、决策树等）进行训练和预测。

使用predict.csv中的ID进行y2的预测，并填入submit.csv文件。

首先，绘制id与y2的散点图进行分析，得出存在一定的非线性关系，下面我们将可以使用非线性拟合进行预测，如下所示

这里我们使用四阶多项式拟合，得到R^2为0.976，具有较好的结果

l 问题2：对数据中的某些特征进行分析，建立预测y1的模型，选择不超过10个特征指标。

特征选择：

对data.csv中的特征进行分析，选择对y1预测最有影响的10个或更少特征。（可以使用Pearson、Spearman或Kendall相关系数根据数据特点选择）

可以采用相关性分析、主成分分析（PCA）等方法进行特征选择。

模型构建与验证：

基于选择的特征构建预测模型，可尝试多种模型如支持向量机、随机森林等。

通过交叉验证等方法评估模型性能，使用k-fold交叉验证来优化模型参数并防止过拟合。

结果预测：

使用适当的性能指标，如均方误差（MSE）或决定系数（R^2）

使用选定的模型对predict.csv数据进行预测，并将结果填入submit.csv。

问题二为了方便给大家展示，我们使用SelectKBest 方法结合 f_regression 函数从训练数据集中选择对目标变量 y1 影响最大的10个特征（y1,y2,x1 到 x100 中）。这个方法评估每个特征对于目标变量的统计显著性，选择最重要的特征。选择随机森林回归器作为预测模型，使用选定的特征和训练数据集来训练模型，在预测数据集上应用相同的特征选择方法，确保预测时使用的特征与训练模型时使用的特征一致。