决策树模型

斯坦福吴恩达2022机器学习

简单的决策树模型

类似于完全二叉树，有根节点和叶节点

模型建立的两个关键点：

用熵来作为纯度的度量

当结点中的样本全为猫时，p1=1，此时熵的值为0，当样本中全为狗时同理

当结点中的样本为一半猫一半狗时，p1=0.5，此时熵最高为1

在p=0的情形中，log(0)是无法计算的，那么我们需要提前约定0log(0)=0，才能正确计算熵

在上图中，每个特征筛选出来的分支都有各自的纯度熵，那么如何根据这些熵来判断哪个特征分类情况最好呢？我们使用每个特征的熵的加权平均来作为评估方式。

在耳朵形状这一特征中，五个样本被分到了立耳，五个样本被分到了塌耳，那么则可通过上图公式1来进行加权平均计算出式子2

根节点的熵为H(5/10)=1，因为根节点在用特征分类前是十个样本，其中五个样本是猫。

最后的评估指标等于根节点的熵减去式子2得到熵的减少，即拆分信息增益，分类特征2和3同理，选择熵的减少量最大的特征。

有随机抽样的样本来构建不同的树构成森林

For b=1 to B:

Use sampling with replacement to create a new training set of size m Train a decision tree on the new dataset

信息熵的计算公式

pk为当前样本集合D中第k类样本所占的比例

信息熵的值越小则D的纯度越高

信息增益越大，则样本在该属性下的纯度提升越大，属性选择更好

信息增益准则对取值较多的属性有所偏好，仅仅采用增益来选取合适的属性会导致决策树的泛化能力很差

为属性a的固有值

属性a的取值数目越多则固有值越大

增益率对取值可能较少的属性有所偏好，在C4.5算法中并不是直接取增益率最大的候选划分属性，而是使用了启发式：先从候选属性中选择信息增益高于平均水平的属性集合，再从该集合中选择增益率最高的属性

classification and regression tree 分类和回归都可用

使用基尼指数来选择划分属性

数据集D的纯度可用基尼值来度量

Gini反应了从数据集D中随机抽取两个样本其类别标记不一样的概率

属性a的基尼指数定义为

选择基尼指数最小的属性