统计学习: 树型模型

树模型

决策树

树方法的特点

  • 解释性强,方法简单
  • 准确性不如之前介绍的方法

回归树

  • 回归树的损失函数是将RSS划分为多个区域Rj,形式为:

    $$ RSS=\sum_{j=1}^J\sum_{i\in R_j}(y_i-\hat y_{R_j})^2 $$

  • 建树方法:递归二叉分裂:

    • 自上而下:从顶端开始,选择预测变量和分割点(每一个预测变量都可以分段,所有分割点就是所有变量的分割点的集合)
    • 贪婪:选择能使树的RSS最小的那个分割点s
  • 剪枝:递归二叉分裂的过拟合较为严重,需要剪枝防止预测结果进一步分裂

    • 代价复杂性剪枝(最弱联系剪枝):对RSS添加惩罚项:

      $$ RSS=\sum_{j=1}^J\sum_{i\in R_j}(y_i-\hat y_{R_j})^2+\alpha|T| $$

      其中α对应一棵子树,是非负的超参数,|T|为该子树的叶子节点数,α同样通过交叉验证选择

      即叶子结点数越多,惩罚越大

分类树

  • 分类树和回归树类似,只不过损失函数需要变化

  • 效果较差的分类错误率:

    E = 1 − maxk(mk)

    mk是在第m个区域第k类所占比例,即所有非最常见类的预测比例

  • 基尼系数:

    $$ G=\sum_{k=1}^K\hat p_{mk}(1-\hat p_{mk}) $$

  • 交叉熵:

    $$ D=-\sum_{k=1}^K\hat p_{mk}\log \hat p_{mk} $$

装袋法

  • 装袋法又称自助法聚集,学习自助法可以知道,通过有放回重复采样可以平均方差,使预测结果的方差减小
  • 装袋法通过生成B棵树,分别进行预测,求平均得到最终的预测结果
  • 针对分类树,采用多数投票的方法,取最多投票的分类作为最终的预测结果
  • 由自助法,每个自助样本包含原始样本大约$\frac23$的样本点,那么一颗自助树的袋外样本就有$\frac13$,那么不使用这$\frac13$袋外样本作为训练集的自助树有$\frac B3$棵,通过这$\frac B3$个袋外预测值就能估计测试误差了
  • 它的估计过程和自助法估计不同,自助法针对每个模型计算袋外样本的测试误差,然后平均(共模型数个),装袋法针对每个袋外样本先算测试误差,然后平均(共袋外样本数个)

随机森林

  • 随机森林本质是变量数更少的装袋法,在每个分裂点都选出m ≤ p个变量来训练,通常m$\sqrt p$

提升法

  • 提升法适用于多个回归方法,针对回归树,它先训练多个弱学习器,不过是顺序训练的,后面的学习器会采用前面学习器的残差作为y
  • 提升法的目标是降低偏差