发布于 

机器学习II - 正则化(Regularzation)

4.正则化(Regularzation)

模型在训练集的表现较高,但是在测试集的表现较差,我们称之为过拟合。解决过拟合有两种方法:

  1. 删减特征数量
    • 通过业务上的理解,手动删减
    • 模型自动选择(分布回归等)
  2. 正则化
    • 保留所有特征,对特征进行降维

4.1 线性回归的正则化

正则化的本质是在代价函数中,增加一项由正则化参数$\lambda$(Regularzation Parameter)组成的正则项。例如在线性回归中,我们增加惩罚项:

lasso回归与ridge回归分别使用的是L1正则化$\lambda \sum^n_{j=1}|w_j|$与L2正则化$\lambda \sum^n_{j=1}w_j^2$

在梯度下降时,同样增加上正则项的偏微分项

以上这项可以改写为$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha \frac{1}{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} $,其中$\alpha\frac{\lambda}{m}$是一个小于1的值,而且在学习速率很小时,这个值会很接近于1,所以本质上梯度下降与原来没有显著区别。

4.1.1 正规方程与正则化

正则化会在正规方程的基础上,增加一项类似单位矩阵(Indentity Matrix)的矩阵$L$

即使$m<n$,添加$\lambda L$项会使整个$(X^TX + \lambda L)$可逆。

4.2 逻辑回归的正则化

逻辑回归的代价函数为

在最后添加正则项

reference
机器学习 by 周志华