结论

正则化都可以防止模型过拟合。
L1正则化更容易获得为0得解，即权重更倾向为稀疏，常用于进行特征选择。
L2正则化使得解的趋向0而不为0（不因正则化为0）。
假定参数为 $w$ ，loss函数为 $L(w)$ ，则包含L1正则化的目标函数为

F = L(w) + \lambda \lvert w \rvert

在 $w=0$ 处的导数为

\left.\frac{\partial F}{\partial w}\right|_{w=0^{+}} = \frac{\partial L(w)}{\partial w} + \lambda

\left.\frac{\partial F}{\partial w}\right|_{w=0^{-}} = \frac{\partial L(w)}{\partial w} - \lambda

当 $\lambda$ 足够大时， $w=0$ 左右异号，0为极小值点，参数更容易为0

包含L2正则化的目标函数为

F = L(w) + \lambda w^{2}

在 $w=0$ 处的导数为

\left.\frac{\partial F}{\partial w}\right|_{w=0} = \frac{\partial L(w)}{\partial w}

此时 $w=0$ 不至使0处为极小值点，但也使得解更倾向于0

L1正则化与L2正则化的区别