2024华数杯B题高质量成品论文22页+可执行matlab+py代码+讲解视频+论文修改+运行结果对照表

发布时间：2024年01月20日

1 第一问模型的建立与求解? （完整版的见文末）

数据表格将包括以下列：

(1)??年份

(2)??总用电量（万亿千瓦时）

(3)??火电装机容量（千瓦）

(4)??风电装机容量（千瓦）

(5)??太阳能装机容量（千瓦）

(6)??水电装机容量（千瓦）

(7)??非化石能源比重

(8)??工业部门电气化率

(9)??建筑部门电气化率

(10) 交通部门电气化率

(11) 煤电装机容量（千瓦）

(12) 气电装机容量（千瓦）

(13) 核电装机容量（千瓦）

1.2 Yeo-Johnson??转换

为了防止建立的模型过拟合以及提高模型的泛化能力，?需要对数据的分布情况进行?探索分析，力求保证数据集分布情况一致，首先将数据导入，运用?Python?判断每一列?数据的分布类型是否属于正态分布，本代码通过 SciPy ?库中的 stats.skew（）?函数来判断数据是否需要进行 Yeo-Johnson ?转换。Skewness（即偏度）是衡量某一个样本数值?相对于平均数的偏离程度的统计量，它可以用来描述数据的分布形态是否对称。偏度为?0 ?表示数据分布是对称的，偏度大于 0??表示数据分布偏向右侧，偏度小于?0??表示数据?分布偏向左侧

在本代码中，如果数据的偏度值的绝对值大于某个非常小的阈值 0.05，则表示该数?据分布类型不是正态分布，需要进行 Yeo-Johnson ?转换，?下图仅展示部分特征的原始数?据直方图分布和对应的?Yeo-Johnson ?转换后的直方图。

然后将随机森林和梯度提升树取平均值可以得到更稳健的结果。

1. ???随机森林求特征重要性：随机森林是一种集成学习方法，它将多个决策树组合起来，?每个树都随机选择部分特征进行训练。通过测量在随机森林中每个特征的重要性，?我们可以获得一个特征重要性的排名。在随机森林中，?特征重要性是根据袋外误差?（Out-Of-Bag Error）进行计算的，?袋外误差是指在训练随机森林时，?每个决策树中?未被选中的样本数据。

2. ???GBDT 求特征重要性：?梯度提升树是另一种常见的集成学习方法，?它通过不断地迭?代生成一组决策树来拟合数据，?每棵树都会根据上一棵树的预测误差进行训练。在?GBDT?中，特征重要性是通过测量每个特征在训练过程中平均分裂增益（Mean Split?Gain）来计算的，?即在每个节点上选择哪个特征作为分裂点，?以达到最大的信息增?益。

3. ???取平均值：?对于每个特征，我们可以通过随机森林和?GBDT?得到两个不同的特征重?要性排名。为了得到更稳健的结果，?我们可以将两种方法得到的特征重要性取平均?值，以此作为最终的特征重要性排名。

这种方法的好处包括：

1. ???随机森林和?GBDT?都是常见的机器学习方法，它们在不同的领域都有广泛的应用。?因此，这种方法可以适用于各种类型的数据和问题。

2. ???通过使用两种不同的方法计算特征重要性，我们可以避免单一方法带来的误差和偏?差，从而得到更准确和可靠的特征重要性排名。

3. ???通过取平均值，?我们可以得到更稳健的结果。因为两种方法都有自己的优点和局限?性，它们可以相互补充，提高特征重要性的可信度和可解释性。

计算结果如下：

全网最正确〕2024华数杯B题成品论文52页word+四小问可执行代码+代码调式+结果分析+高清运行结果图

文章来源:https://blog.csdn.net/weixin_66003076/article/details/135713825
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！