统计学习: 分类任务
分类任务
逻辑回归
二分类逻辑回归
针对分类任务,通常可用概率值估计类别,例如二分类求出一个
0~1之间的概率,若概率大于某个阈值则取其中一类而一般的线性回归会求出超出
0~1范围的数,这是一种不合理如同之前分析的线性回归问题“数据非线性”的解决方法那样,逻辑回归通过对预测变量作变换来解决分类任务
一元逻辑回归的形式是:
$$ p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}=\frac{1}{1+e^{-\beta_0-\beta_1X}} $$
这在人工智能里称为激活函数
Sigmoid,其中可将β0 + β1X替换为多元线性回归的形式来拟合多元分类任务逻辑回归的想法就是将分类任务转换为回归任务
计算估计参数的方法自然是极大似然估计法,处理定性变量和一般线性回归相同,通过设计哑变量来表示
预测变量和响应变量的相关性通过
Z统计量及其假设检验计算和线性回归一样,如果预测变量之间高相关,那么容易产生混淆现象
多分类逻辑回归
和线性回归不同,针对逻辑回归,“多元”一般指多分类,即输出是多个类别
使用的激活函数是
Softmax,Sigmoid是Softmax的特例:假设输出类别数为K,那么第i个输出是$$ Softmax(X_i)=\frac{e^{z_i}}{\sum_{k=1}^Ke^{z_k}} $$
线性判别分析
LDA(线性判别分析)是另一种间接估计Pr(Y=k|X=x)的方法,通过建立预测变量的分布模型,根据贝叶斯定理估计后验概率,最后分类贝叶斯定理:
$$ Pr(Y=y|X=x)=\frac{\pi_yf_y(x)}{\sum_(l=1)^K\pi_lf_l(x)} 其中\pi_y=Pr(Y=y),f_y(x)=Pr(X=x|Y=y) $$
估计Pr(X=x|Y=y)是难题,假设它服从正态分布,那么代入可得贝叶斯分类器,经过推导得到观测的最终分类将是使下式得到最大值的第k类:
$$ \delta_y(x)=x\frac{\mu_y}{\sigma^2}-\frac{\mu_y^2}{2\sigma^2}+\log(\pi_y) $$
线性判别分析和逻辑回归的区别:
- 逻辑回归是参数模型,假设这个条件分布是变换后的线性模型,通过拟合Pr(Y=y|X=x)的模型并计算参数得到计算式子
LDA是非参数模型,假设这个条件分布服从正态分布,通过贝叶斯估计直接推导得出的计算式子,然后求解决定性因子δy(x)得到y
何时使用
LDA- 不同类别区分度较大时
- 样本量较少无法计算参数时
- 响应分类类别数较大
- 通用:假设服从正态分布时和逻辑回归类似,但可以假设服从其它各种分布
决策边界:
LDA会出现对于不同的y其\delta_y(x)相同的情况,即:$$ \delta_{y_1}(x)=\frac{\mu_{y_1}}{\sigma^2}-\frac{\mu_{y_1}^2}{2\sigma^2}+\log(\pi_{y_1})=\delta_{y_2}(x)=\frac{\mu_{y_2}}{\sigma^2}-\frac{\mu_{y_2}^2}{2\sigma^2}+\log(\pi_{y_2}) $$
由等式计算得到的x,就是决策边界
先验概率对决策边界的影响:
根据等式,先验概率πy越大的类别,其覆盖的
x范围越大,即决策边界会“远离”该类别p = 1时
LDA的假设:不同类别的x服从方差σy2相同的正态分布p > 1时
LDA的假设:不同类别的x服从协方差矩阵相同的多元正态分布,允许不同预测变量之间有相关性(协方差可非零)
混淆矩阵
横坐标为预测分类、纵坐标为真实分类
$$ \begin{align}&(真|假)(阳|阴)性率=\frac{预测成功|预测失败\times预测阳性|预测阴性}{真实阳性|真实阴性}\\&真阳性率=\frac{预测阳且真实阳}{真实阳}\\&预测(阳|阴)性率=\frac{预测成功(阳|阴)}{预测(阳|阴)}\end{align} $$
二次判别分析
QDA(二次判别分析)假设每一类别的预测变量仍服从多元高斯分布,但允许不同类的预测变量的协方差矩阵不同,在这样的假设下估计出来的∑k不同,代入后得到:$$ \delta_y(x)=-\frac12(x-\mu_y)^T\sum_y^{-1}(x-\mu_y)+\log\pi_y-\frac12\log|\sum_y| $$
QDA要求计算等同于类别数个的协方差矩阵,带给他更高的光滑度由于判别函数是二次的,
QDA的光滑度更高,因此偏差更小方差更大,当数据量非常大时,LDA的假设十分远离实际,因此偏差异常的大,而QDA带来的方差变大并不那么重要,反而能减小偏差,此时QDA更适合