结论

正则化都可以防止模型过拟合。
L1正则化更容易获得为0得解,即权重更倾向为稀疏,常用于进行特征选择。
L2正则化使得解的趋向0而不为0(不因正则化为0)。
假定参数为 ww ,loss函数为 L(w)L(w) ,则包含L1正则化的目标函数为

F=L(w)+λw F = L(w) + \lambda \lvert w \rvert

w=0w=0 处的导数为

Fww=0+=L(w)w+λ \left.\frac{\partial F}{\partial w}\right|_{w=0^{+}} = \frac{\partial L(w)}{\partial w} + \lambda

Fww=0=L(w)wλ \left.\frac{\partial F}{\partial w}\right|_{w=0^{-}} = \frac{\partial L(w)}{\partial w} - \lambda

λ\lambda 足够大时, w=0w=0 左右异号,0为极小值点,参数更容易为0

包含L2正则化的目标函数为

F=L(w)+λw2 F = L(w) + \lambda w^{2}

w=0w=0 处的导数为

Fww=0=L(w)w \left.\frac{\partial F}{\partial w}\right|_{w=0} = \frac{\partial L(w)}{\partial w}

此时 w=0w=0 不至使0处为极小值点,但也使得解更倾向于0

L1 正则化

L2 正则化