1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
数据采集:爬虫、API、数据库
数据处理:数据清洗
特征工程
特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
包括特征构建、特征提取、特征选择三个部分
特征构建:指从原始数据中人工的找出一些具有物理意义的特征
特征提取:通过映射(变换)的方法把高维的特征向量变换为低维的特征向量
特征选择:从原始特征中挑选出一些最有代表性、分类性能好的特征以达到降低特征空间维数的目的
构建模型
1.建立训练数据集和测试数据集,通常80%为训练数据集。
导入算法
创建模型
训练模型
模型调优
选择合适的算法对模型进行训练
f(x)学习模型,泛化能力是指机器学习算法对新鲜样本的适应能力
模型评估
模型评估主要分为离线评估和在线评估两个阶段
模型评估指标
准确率
精确率和召回率
精确率
查准率和查全率是一对矛盾的度量。一般说查准率高时,查全率往往偏低,而查全率高时,查准率往往偏低
召回率
例如:true这列表示正例或者负例,hyp这列表示阈值0.5的情况下,概率是否大于0.5。
根据这个表格我们可以计算:TP=6,FN=0,FP=2,TN=2。故recall=6/(6+0)=1,
precison=6/(6+2)=0.75,那么得出坐标(1,0.75)。同理得到不同阈下的坐标,即可绘制出曲线。
若一个PR曲线被另一个PR曲线完全包住,则可断言后者的性能优于前者,如A曲线优于C曲线,如果两个曲线发生了交叉,如A和B曲线,则很难判断判断优劣,只能在具体的查准率或查全率条件下进行比较
“平衡点”(Break-Even Point,简称“BEF”)就是这样一个度量,它是查准率=查全率时的取值
模型评估方法
交叉验证
监督学习(根据数据标签存在与否)
监督学习
半监督学习
非监督学习
强化学习
分类
交叉验证法评估结果的稳定性和保真性在很大程度上取决于K的取值,为强调这一点,通常把交叉验证称为“K折交叉验证”,K的最常取值为10,称为10折交叉验证
分类是预测一个标签 (是离散的),属于监督学习
回归
聚类
特征选择:从特征集合中挑选一组最具统计意义的特征。与原特征集合之间是一种包含的关系,没有更改原始的特征空间。