lstm
LSTM
it=σ(Wiixt+bii+Whiht−1+bhi)ft=σ(Wifxt+bif+Whfht−1+bhf)gt=tanh(Wigxt+big+Whght−1+bhg)ot=σ(Wioxt+bio+Whoht−1+bho)ct=ft⊙ct−1+it⊙gtht=ot⊙tanh(ct)\begin{array}{ll} \\
i_t = \sigma(W_{ii} x_t + b_{ii} + W_{hi} h_{t-1} + b_{hi}) \\
f_t = \sigma(W_{if} x_t + b_{if} + W_{hf} h_{t-1} + b_{hf}) \\
g_t = \tanh(W_{ig} x_t + b_{ig} + W_{hg} h_{t-1} + b_{hg}) \\
o_t = \sigma(W_{io} x_t + b_{io} + W_{ho} h_{t-1} + b_{ho}) \\
c_t = f_t \odot c_{t-1} + i_t \odot g_t \\
h_t = o_t ...
激活函数汇总
Sigmoid
函数
σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}
σ(x)=1+e−x1
导数
σ′(x)=σ(x)⋅(1−σ(x))\sigma'(x) = \sigma(x)\cdot(1-\sigma(x))
σ′(x)=σ(x)⋅(1−σ(x))
优点
函数是可微的。
梯度平滑。
Sigmoid 函数的输出范围是 0 到 1,因此它对每个神经元的输出进行了归一化,课用于将预测概率作为输出的模型。
缺点
激活函数计算量大(在正向传播和反向传播中都包含幂运算和除法)
不是zero-centered
梯度消失
Tanh
函数
τ(x)=tanh(x)=ex−e−xex+e−x\tau(x) = \tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}
τ(x)=tanh(x)=ex+e−xex−e−x
导数
τ′(x)=1−τ2(x)\tau'(x) = 1 - \tau^{2}(x)
τ′(x)=1−τ2(x)
优点
zero-centered
相 ...