激活函数汇总
Sigmoid
函数
导数
优点
- 函数是可微的。
- 梯度平滑。
- Sigmoid 函数的输出范围是 0 到 1,因此它对每个神经元的输出进行了归一化,课用于将预测概率作为输出的模型。
缺点
- 激活函数计算量大(在正向传播和反向传播中都包含幂运算和除法)
- 不是zero-centered
- 梯度消失
Tanh
函数
导数
优点
- zero-centered
- 相比sigmoid梯度消失有所改善
- 梯度更大,容易收敛
缺点
- 梯度消失
ReLu
函数
导数
优点
- 没有饱和区,不存在梯度消失问题,防止梯度弥散。
- 稀疏性。
- 计算简单。
- 收敛快。
缺点
- 会导致部分节点dead,当学习率变大时,dead节点更多
Softmax
函数
GeLu
函数
实现
plaintext
1 | import numpy as np |
导数
优点
- GeLu可以看作是dropout和relu的结合
- 按照正态分布去dropout节点
缺点
- 计算复杂度高
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.