该题目出题的难度与方向都与美赛?ICM?的题型高度相似,将本次竞赛当做美赛的?练手赛,个人认为是非常合适的一种选择。同时?28?号就可以出成绩,也可以在美赛前 实现查漏补缺,提前预祝大家比赛顺利,美赛都可以取得好成绩。下面,我们开始详细?的解读一下本次竞赛的?B?题。
B?题本次的难度远低于?A?题,这势必会导致?B?题的选题认识会比?A?题多很多,但?是比赛的最终成绩是获奖率。无论都是每个赛题选择人数多少,每个赛题获奖的人数都?是?50%,因此不存在选择人少的赛题好获奖这种情况,都是比例获奖。我可以保证跟着?本人的思路,获奖是没有任何问题的,至于能获得什么奖项,主要还是看对于每一问选?择的模型复杂度的高低以及队伍可视化的能力。基本每一问都会给两三种实现方式,上?中下三种实现方式,即使最简单的方式,也是可以保证获奖的。但是很难保证获得很好?的奖项。
数据收集
在正式开始题目之前必须明白,对于美赛这种?ICM?题目,很大程度的上的难点并不在?于题目本身而是,需要我们自行收集数据,由于大家之前没有自己找过数据,所以这一关会?难倒很多很多的人群。本团队会为大家收集一套完整的数据,供大家选择。至于选择这套数?据集中的何种数据,就因队伍而已,因此一千个队伍可能有一千种选择方式。所以,从一开?始的选择数据开始,大家就会各不相同。因此,无需担心查重率过高的问题。
本文目前,已经为大家收集了问题一和问题四的数据,如下所示。稍后也将为大家专门?收集关于光伏发电相关的数据,完成对于问题三四的数据收集。
(注释:大家如果需要其他,数据集中没有的数据,欢迎大家留言,我们会尽力帮大家?收集)
问题一、中国的电力供应与许多因素相互作用。请研究它们之间的关系,并预测中国从?2024?年到?2060?年电力供应的发展趋势。
问题一本质是一个问题,两个步骤,一进行相关性分析,二进行预测。需要注意的是本 题的主体是电力供应,不是本文的主旨光伏发电。因此,我们只需要研究电力供应就可以。?首先,我们需要选择合适的指标,对于电力供应有很多相关的指标,这里每个人选择的都不 会一模一样,因此这也是大家论文不用的地方。我下面给大家一个大致的方向,首先就是历 史的电力供应数据(该数据在国家统计局收集到,在?1.5?更新中,文件名为‘水电、火电、?核电、风电生产量?’),其次就是一些与电力供应相关的数据经济数据(GDP、人口增长等)、?工业化进程数据、?电力结构(煤炭、天然气、可再生能 源等)、经济增长率、城市化率、家庭??消费水平等(以上大部分数据都可以在?1.5?更新中,文件名为“1269?个中国宏观指标”找到)?后续也会补充一些这方面的宏观数据。
确定收集到的数据指标后,就是整理数据。建议大家可以绘制几张折线图(图一这种的)?等,完成对收集到数据的描述,对于数据预处理,包括缺失值处理、异常值处理、数据降维 ?等。异常值处理,首先判定数据分布方式,对于正态分布的数据利用?3?西格玛原则判定异常??值;非正态分布的数据利用箱型图判定异常值。对于判定的异常值进行剔除处理,变为缺失 ?值。
对缺失值,两部分既有数据收集本身所有的,还有就是异常值处理带来的异常值。这里?比较建议大家选择线性插值(平均值插值、克里斯插值等都是可以的)。对于较高维度的数?据,还可以选择就降维处理。
处理完数据后,需要对进行第一小问的回答,即判定关系。这属于关联分析模型,根据?变量的个数不用刻意直接选择不用的方式。这里,个人比较建议直接使用?person进行相关?性分析即可。
第二小问,预测模型可以根据自行收集的数据的需求进行选择,数模常见的预测模型见?下表。个人比较推荐的三种预测模型,分别为
方案一:y?与多个?x????建立多元回归模型
使用该方法的原因,是之前已经完成了多个?x?之间的分析,可以直接顺理成章的建?立多元回归模型。这种方式比较顺滑,比较容易懂,但是预测精度会比较低。
方案二:单一预测模型 例如 LSTM?、BP?、随机森林可能会比较合适
使用该模型,复杂度比方案一要好一些,精度也很好。模型整体度没有方案一好
方案三:建立加权平均预测(?arima?、lstm?、多元回归模型)?,个人最喜欢的模型,模型复?杂度很高,但是主要问题就是篇幅很长,可能?25?页的篇幅限制会超出限制。有点自卖自夸?的嫌疑,但是这个就是我们保奖模版的预测模版。该模型也是本次我论文写作的模型,下面?是其原理图,会在更新的视频里面进行说明,看不懂的,只能使用方案一、二。点击链接加入群聊【2024华数杯数学建模资料总群】: