首先题意为预测未来三年中的每一天中的每一家超市中的每一个商品的销售价值
目前我的思路是:
因为本道题目涉及多种特征,并且有着明确的时间线,并且题意也表示,这是一道时间预测的题目,那么对于该道题目我考虑使用LSTM模型求解,又因为预测的时候是有多种商品,那么对于多种商品,我考虑分层,对于每一个超市的每一个商品,我就把他们拿出来,单独做一次LSTM模型预测,通过观察数据可知,其实总共的数量并不大,是可以接受的
有了这样的思路之后,目前就要分点完成任务,如对于数据先进行预处理,首先,每日油价可以进行预处理,对于缺失值进行补全,这个我已经完成,那么接下来我想做的是,首先,对于节假日我要进行处理,我就只算个大概,应为数据可以观察到,同一天里面会出现多个节日,对于节日还分了地区,这就要好好处理了,处理到最后面我希望得到的是,对于train.csv和test.csv的两张表,我希望得到他们是否在那一天有节日,是就是1,否则就说0,这里就直接模糊处理了
这样的话,我就认为初步的对于数据就处理完成了,我就可以得到一个train.csv表和test.csv表,之后我就开始对于每一个超市的每一种商品进行分层处理,目前就看一下能不能找到一个东西来实现这个想法,将这个想法实现之后,差不多就可以得到预测答案了
现在接着写,对于每日油价的开始位置为空,用什么方法填充,因为我用的是向前填充,明显第一个是没有前的,所以我先做一遍向前,在做一遍向后,就可以合理的做出每日油价,做出来之后,我就把每日油价给添加到我的train.csv里面,添加之后,我就开始考虑每个超市每一天的营业额,因为每天的当前超市的某件商品的营业额,我认为是应该和超市自己本身的营业额相关的,我就把营业额那张表给对应的加到train.csv里面去,然后可以发现,是有缺失值的,对于缺失值的处理,我们可以直接把当前超市的这几年的营业额先用excel来做张图,可以发现,图像其实价格都是在一个区间内浮动,所以我直接考虑了使用当前超市的整个平均值来填充我当前超市这一天的缺失值,这样就可以很好的处理了。
目前为止,除了test.csv没有用外,其实就还差一张节假日表没用,对于节假日,无非两个信息,节假日的时间,节假日的地点,注意,train.csv里面是没有城市的,但是有一张商店表里面有这个超市位于什么地区,我就把这个超市的地区,我就先给他加上去,加上去之后,我就对于这张表和节假日表进行合并以下,如果当前时间和地区在节假日表里面,就说明是节日,否则就不是节日,这样就新加了一列。现在没有提到的列都是我认为没有什么用的列,所以就不管他了。
最后一步的数据处理时间特别长,要注意一下
那么对于现在,我们其实已经把所有信息都给集中在了这一张表上了,对于test.csv到后面在处理,先把模型训练出来再说,
那么我们就应该针对这样一张表来进行预测了,output只有一个,也就是商品的销售额,然后其他的变量其实都可以做为特征来处理