统计学习: 线性回归

Posted on 2025-11-17 Edited on 2025-12-31 In SE Courses , stat Word count in article: 1.5k Reading time ≈ 5 mins.

线性回归

简单线性回归

最小二乘法

线性回归是监督学习模型，假设所有预测变量和响应变量具有线性关系
最小二乘回归(OLS)是最常用的简单线性回归方法，它采用的损失函数是残差平方和，其中残差是预测值与真实值的差值，残差平方和(RSS)为$\begin{align}\sum_{i=1}^n(\hat y_i-y_i)^2\end{align}$
最小化损失函数是几乎所有方法使用的估计系数方法，对于OLS而言则是最小化RSS，即求导使导数为零然后解方程

模型参数估计值指标

随机误差：随机误差是线性回归本就假设进去的一项，它的方差 $\sigma^2$ 是不可约误差，是未知的常数
标准差SE：表示参数估计结果偏离真实值的平均值，用到了随机误差的方差以及RSS
残差标准差(RSE)：虽然不可知，但可以估计，一般用t(n-2)统计量来估计
置信区间：xx%置信区间通过参数的估计值加上一定比例的标准差来得到，例如95%置信区间的范围是参数估计值 ± 2SE(参数估计值)
预测区间
参数估计值是否为零：通过对t统计量进行假设检验，若p值接近零，认为有显著影响，因此否定估计值为零的原假设

模型预测值评价指标

残差标准差表示模型预测值偏离真实值的平均值
$R^2$ 统计量通过总平方和以及残差平方和来计算，总平方和是真实值与平均值的差的平方和，该统计量越接近1，说明模型能更好的解释变异
偏差-方差权衡：模型的光滑度代表了它的复杂程度，光滑度越高，模型的非线性拟合能力越强，方差越小，但偏差也会越大

随光滑度增高，训练误差单调递减，但测试误差随之呈U型变化，左侧呈现出欠拟合问题(模型复杂程度太低)，右侧呈现出过拟合问题(训练误差小于不可约误差，但测试误差较大)

多元线性回归

多元线性回归假设各个预测变量不相关
多元线性回归同样使用最小二乘法估计系数
多元线性回归同样通过t统计量的p值判断某个特定系数是否为零，此外还通过F统计量的p值判断是否所有预测变量的系数均为零

处理定性的预测变量

二值变量使用一个哑变量即可，即是某类时赋值为1，否则为零
n值变量使用n-1个哑变量，所有哑变量均为零时表示剩下那个状态

处理线性回归的假设

多元线性回归假设各个预测变量不相关，但现实中几乎不可能，为了减小相关性影响，引入交互项(乘积项)，和一般的预测变量相同地参与模型评价
实验分层原则：若交互项存在，那么参与交互项的预测变量(称为主效应项)都应在模型中

线性回归的问题

数据的非线性：画出残差-拟合值图像，对于每一个拟合值，求出的残差的均值应是零，若存在若干点残差均值远离零，那么很有可能有数据的非线性问题

解决办法是观察图像并猜测有可能的线性关系，添加对预测变量作一定变换的非线性项
随机误差项自相关：原本假设是n个ε之间互不相关(且假设服从正态分布)，如果相关会导致估计标准差低于真实标准差，链式导致置信区间变窄

此问题常出现在时间序列数据上，解决办法是增加采样时间或注重随机采样
随机误差项方差非恒定：画出残差-拟合值图像，随拟合值变化，残差的均值虽然接近零，但上下范围随之变化

解决办法是对响应变量作一定变换
离群点：响应值标签是异常的，针对一元或二元线性回归，可以画出真实值-输入值图像或学生化残差图来发现离群点

学生化残差指残差和残差标准差的比值，提供一个易于分析的评估范围(绝对值大于3视为离群点)

离群点不会过多影响最小二乘计算出的参数估计值，但会影响评价指标(因为RSE会被影响)，如p值、置信区间
高杠杆点：输入数据(预测变量)的值是异常的(简单理解为附近没有其它样本点)，可以通过计算杠杆统计量值量化寻找

高杠杆点和离群点不同，它会极大影响最小二乘计算出的参数估计值，必须找出它
数据的共线性：预测变量之间高度相关，难以猜测哪些变量是真正相关的，若两个高度相关的变量放在一起，参数的标准差增大、t统计量值减小、假设检验的p值增大，导致无法看出哪个变量是真正和响应变量相关的，且难以解释系数

可通过计算协方差矩阵或计算方差膨胀因子(VIF)发现共线性数据

可通过其它回归方法或去除某些变量解决该问题