结论
正则化都可以防止模型过拟合。
L1正则化更容易获得为0得解,即权重更倾向为稀疏,常用于进行特征选择。
L2正则化使得解的趋向0而不为0(不因正则化为0)。
假定参数为 w ,loss函数为 L(w) ,则包含L1正则化的目标函数为
F=L(w)+λ∣w∣
在 w=0 处的导数为
∂w∂F∣∣∣∣∣w=0+=∂w∂L(w)+λ
∂w∂F∣∣∣∣∣w=0−=∂w∂L(w)−λ
当 λ 足够大时, w=0 左右异号,0为极小值点,参数更容易为0
包含L2正则化的目标函数为
F=L(w)+λw2
在 w=0 处的导数为
∂w∂F∣∣∣∣∣w=0=∂w∂L(w)
此时 w=0 不至使0处为极小值点,但也使得解更倾向于0
L1 正则化
L2 正则化