决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。
它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分。
决策树的标准好坏
可以用一个标准定义:基尼系数
就是所有决策的概率之和
选择基尼系数最小的
有三个标准,第一轮比较后选择房子
一般选择二叉树
优点:
缺点:
改进:
随机森林
包含很多决策树
随机森林就是通过集成学习的Bagging思想将多棵树集成的一种算法:它的基本单元就是决策树。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义我们会在下面讲到。
我们要将一个输入样本进行分类,就需要将它输入到每棵树中进行分类。将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器,这就是随机森林bagging的思想。
预设模型的超参数?
几个树,几个层?
随机采用,训练每一个决策树
输入待测样本,再把每个树的结果整合
优缺点