机器学习II - 正则化(Regularzation)
4.正则化(Regularzation)
模型在训练集的表现较高,但是在测试集的表现较差,我们称之为过拟合。解决过拟合有两种方法:
- 删减特征数量
- 通过业务上的理解,手动删减
- 模型自动选择(分布回归等)
- 正则化
- 保留所有特征,对特征进行降维
4.1 线性回归的正则化
正则化的本质是在代价函数中,增加一项由正则化参数$\lambda$(Regularzation Parameter)组成的正则项。例如在线性回归中,我们增加惩罚项:
lasso回归与ridge回归分别使用的是L1正则化$\lambda \sum^n_{j=1}|w_j|$与L2正则化$\lambda \sum^n_{j=1}w_j^2$
在梯度下降时,同样增加上正则项的偏微分项
以上这项可以改写为$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha \frac{1}{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} $,其中$\alpha\frac{\lambda}{m}$是一个小于1的值,而且在学习速率很小时,这个值会很接近于1,所以本质上梯度下降与原来没有显著区别。
4.1.1 正规方程与正则化
正则化会在正规方程的基础上,增加一项类似单位矩阵(Indentity Matrix)的矩阵$L$
即使$m<n$,添加$\lambda L$项会使整个$(X^TX + \lambda L)$可逆。
4.2 逻辑回归的正则化
逻辑回归的代价函数为
在最后添加正则项
reference
机器学习 by 周志华