机器学习II - 正则化(Regularzation)

4.正则化(Regularzation)

模型在训练集的表现较高，但是在测试集的表现较差，我们称之为过拟合。解决过拟合有两种方法：

删减特征数量
- 通过业务上的理解，手动删减
- 模型自动选择（分布回归等）
正则化
- 保留所有特征，对特征进行降维

4.1 线性回归的正则化

正则化的本质是在代价函数中，增加一项由正则化参数$\lambda$(Regularzation Parameter)组成的正则项。例如在线性回归中，我们增加惩罚项：

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta(x) - y_i)^2 + \lambda \sum^n_{j=1}\theta^2_j ]$

lasso回归与ridge回归分别使用的是L1正则化$\lambda \sum^n_{j=1}|w_j|$与L2正则化$\lambda \sum^n_{j=1}w_j^2$

在梯度下降时，同样增加上正则项的偏微分项

$\begin{aligned} &重复直到收敛\ \{\\ &\theta_j := \theta_j - \alpha [ \frac{1}{m}(h_\theta(x^{(i)}) - y^{(i)})*x_j^{(i)} +\frac{\lambda}{m}\theta_j]\\ &\} \end{aligned}$

以上这项可以改写为$\theta_j:＝\theta_j(1-\alpha\frac{\lambda}{m})-\alpha \frac{1}{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} $，其中$\alpha\frac{\lambda}{m}$是一个小于1的值，而且在学习速率很小时，这个值会很接近于1，所以本质上梯度下降与原来没有显著区别。

4.1.1 正规方程与正则化

正则化会在正规方程的基础上，增加一项类似单位矩阵(Indentity Matrix)的矩阵$L$

$\begin{aligned} \theta &= (X^TX + \lambda L)^{-1}X^TY \\ and \ \ L &= \begin{bmatrix} 0 \\ & 1 \\ && 1 \\ &&& \ddots \\ &&&& 1 \end{bmatrix} \end{aligned}$

即使$m<n$，添加$\lambda L$项会使整个$(X^TX + \lambda L)$可逆。

4.2 逻辑回归的正则化

逻辑回归的代价函数为

$J(\theta) = -\frac{1}{m}[\sum^m_{i=1} y^{(i)}log(h_\theta(x^{(i)})) + (1-y^{(i)})log(1-h_\theta(x^{(i)}))]$

在最后添加正则项

$J(\theta) = -\frac{1}{m}[\sum^m_{i=1} y^{(i)}log(h_\theta(x^{(i)})) + (1-y^{(i)})log(1-h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum^n_{j=1}\theta_j^2$

reference
机器学习 by 周志华

本文使用 Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) 许可协议，转载请注明出处。