目录
4.1.1分析选择模型
时间序列数据即按照时间顺序收集到具有相同指标的一系列数据,在经济、金融、环境、工程、医学等多领域中,存在大量时间序列形式的数据。虽然一直以来,学者们都重点关注对时间序列数据内在规律的挖掘以及预测方法的研究,但直至如今时间序列分析与预测也是最具有难度的数据挖掘问题之一,对于时间序列分析方法的思考一直在继续。
决策树作为一种数据挖掘技术已发展的较为成熟,并由此衍生出众多具备优良性能的算法。其中XGBoost是2016年基于提升决策树提出的改进算法,在多领域分析预测均取得了显著成果。在医学领域,张洪侠[3]等人首先利用XGBoost模型中的特征重要性排序探究了对模型贡献较大的变量,然后基于这些影响变量建立了2型糖尿病的发病风险预测模型,得到了准确度较高的预测结果。柴静[4]等人采用XGBoost模型预测了矿山压力,通过与BP神经网络、SVM模型的预测结果进行比较,发现XGBoost模型的预测速度和精度均高于其他模型。王重仁[5]等人首先采用社交网络分析方法提取出相关特征变量,然后将其引入模型中建立了XGBoost模型对互联网的客户流失问题进行预测分析。通过与逻辑回归、支持向量机和随机森林等模型的预测结果对比,发现XGBoost模型更为有效。
XGBoost不仅