未完待续……
目录
tips:这里只是总结,不是教程哈。本章开始会用到numpy,pandas以及matplotlib,这些就不在这讲了哈。
“***”开头的是给好奇心重的宝宝看的,其实不太重要可以跳过。
此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。
第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。
将多个数据源中的数据合并,存放于一个一致的数据存储中。
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。
数据挖掘时往往数据量非常大,在大量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩。
数据拆分:机器学习的数据集划分一般分为两个部分:
????????训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)
????????测试数据:用于模型评估,检验模型是否有效。一般占20%-30%
该处使用的url网络请求的数据。
该处使用的url网络请求的数据。
该处使用的url网络请求的数据。
该处使用的url网络请求的数据。
嗡嗡嗡
嗡嗡嗡