统计学习: SVM(支持向量机)

支持向量机

超平面

  • 超平面就是一个式子,β0 + β1x1 + … + βpxp = 0
  • 分割超平面:如果超平面两边( > 0 < 0)刚好划分了两类样本,则为分割超平面
  • 最大间隔分类器:
    • 间隔:所有样本点到分割超平面的距离的最小值
    • 最大间隔分类器:使所有样本点的间隔最大的分割超平面

支持向量分类器

  • 支持向量分类器:又称软间隔分类器,它和分割超平面不同,允许有间隔错误和超平面错误
    • 间隔错误:在间隔内部以及分类错误的样本点
    • 超平面错误:分类错误的样本点,是间隔错误的子集
    • 支持向量:落在间隔上或者间隔错误的样本点个数就是支持向量的个数

核函数和支持向量机

  • 事实上,超平面可以改写成f(x) = β0 + ∑i ∈ Sα̂i < x, xi>,其中 < x, xi>为它们的内积
  • 而这个内积可以改为其它函数,称为核函数,基于不同核函数的分类器统称为支持向量机
    • 线性核函数:支持向量分类器所用的核函数
    • 多项式核函数:可以生成光滑决策边界
    • 径向基核函数:
  • 当类别可分时,支持向量机和LDA做的比逻辑斯蒂回归更好