斯坦福吴恩达2022机器学习

简单的决策树模型

image-20241023140523587

类似于完全二叉树,有根节点和叶节点

模型建立的两个关键点:

  • 如何决定分割的特征?
  • 如何判断叶节点的分类结果好坏?

纯度测量

用熵来作为纯度的度量

image-20241023144121398 image-20241023144347508

当结点中的样本全为猫时,p1=1,此时熵的值为0,当样本中全为狗时同理

当结点中的样本为一半猫一半狗时,p1=0.5,此时熵最高为1

image-20241023144944385

在p=0的情形中,log(0)是无法计算的,那么我们需要提前约定0log(0)=0,才能正确计算熵

image-20241023145116195

选择分离的特征

image-20241023145853878

在上图中,每个特征筛选出来的分支都有各自的纯度熵,那么如何根据这些熵来判断哪个特征分类情况最好呢?我们使用每个特征的熵的加权平均来作为评估方式。

image-20241023151127603

在耳朵形状这一特征中,五个样本被分到了立耳,五个样本被分到了塌耳,那么则可通过上图公式1来进行加权平均计算出式子2

根节点的熵为H(5/10)=1,因为根节点在用特征分类前是十个样本,其中五个样本是猫。

image-20241023151728440

最后的评估指标等于根节点的熵减去式子2得到熵的减少,即拆分信息增益,分类特征2和3同理,选择熵的减少量最大的特征。

image-20241023190739340

随机森林算法

有随机抽样的样本来构建不同的树构成森林

image-20241102153124412

For b=1 to B:

​ Use sampling with replacement to create a new training set of size m Train a decision tree on the new dataset

信息增熵

image-20241104143614684信息熵的计算公式

pk为当前样本集合D中第k类样本所占的比例

信息熵的值越小则D的纯度越高

image-20241104144112122 image-20241104144006739

信息增益越大,则样本在该属性下的纯度提升越大,属性选择更好

信息增益准则对取值较多的属性有所偏好,仅仅采用增益来选取合适的属性会导致决策树的泛化能力很差

增益率

image-20241104145551003

image-20241104145716126为属性a的固有值

属性a的取值数目越多则固有值越大

增益率对取值可能较少的属性有所偏好,在C4.5算法中并不是直接取增益率最大的候选划分属性,而是使用了启发式:先从候选属性中选择信息增益高于平均水平的属性集合,再从该集合中选择增益率最高的属性

CART决策树

classification and regression tree 分类和回归都可用

使用基尼指数来选择划分属性

数据集D的纯度可用基尼值来度量image-20241104151327634

Gini反应了从数据集D中随机抽取两个样本其类别标记不一样的概率

属性a的基尼指数定义为image-20241104152734663

选择基尼指数最小的属性

XGBoost

留言

2024-10-23

⬆︎TOP