CrossEntropyLoss
熵
熵即一个事件所包含的信息量
s(x)=−i∑P(xi)logbP(xi)
KL散度
KL散度可用来描述两个分布的距离,KL散度不具备有对称性。
KL散度的定义
DKL(A∥B)=i∑PA(xi)log(PB(xi)PA(xi))=i∑PA(xi)log(PA(xi))−PA(xi)log(PB(xi))
DKL(A∥B)=∫a(x)log(b(x)a(x))
KL散度与交叉熵
交叉墒定义
H(A,B)=−i∑PA(xi)log(PB(xi))
可以发现
H(A,B)=DKL(A∥B)+S(A)
对于深度学习来说,A即测试集数据分布。但是测试集在训练过程中是不可见的,所以我们一般认定测试集和训练集是同分布的,所以A可看为训练集的分布。
因此S(A)可以看作为常量,最小化KL散度等价于最小化交叉熵。但事实测试集与训练集分布并不一致,故一般还需要假设存在一个高斯误差。
FocalLoss