长短期记忆网络(LSTM)

http://zh-v2.d2l.ai/chapter_recurrent-modern/lstm.html

为什么可以缓解梯度爆炸呢,这里不是非常懂

这里的vocab_size指的是词向量的维度吧?

对第4问没懂。“ 那么为什么隐状态需要再次使用tanhtanh函数来确保输出值范围在(−1,1)(−1,1)之间呢?”,这里隐状态有用tanh函数吗?隐状态H的计算公式里不是只用了一次tanh作用在C_t上吗?