结论

正则化都可以防止模型过拟合。
L1正则化更容易获得为0得解,即权重更倾向为稀疏,常用于进行特征选择。
L2正则化使得解的趋向0而不为0(不因正则化为0)。
假定参数为 $w$ ,loss函数为 $L(w)$ ,则包含L1正则化的目标函数为
$$
F = L(w) + \lambda \lvert w \rvert
$$
在 $w=0$ 处的导数为
$$
\left.\frac{\partial F}{\partial w}\right|{w=0^{+}} = \frac{\partial L(w)}{\partial w} + \lambda
$$
$$
\left.\frac{\partial F}{\partial w}\right|
{w=0^{-}} = \frac{\partial L(w)}{\partial w} - \lambda
$$
当 $\lambda$ 足够大时, $w=0$ 左右异号,0为极小值点,参数更容易为0

包含L2正则化的目标函数为
$$
F = L(w) + \lambda w^{2}
$$
在 $w=0$ 处的导数为
$$
\left.\frac{\partial F}{\partial w}\right|_{w=0} = \frac{\partial L(w)}{\partial w}
$$
此时 $w=0$ 不至使0处为极小值点,但也使得解更倾向于0

L1 正则化

L2 正则化