Bahdanau 注意力

http://zh-v2.d2l.ai/chapter_attention-mechanisms/bahdanau-attention.html

hidden_​​state 的形状为(num_layers,batch_size,num_hiddens),为什么这里使用的是hidden_​​state[-1] ,而不是hidden_​​state

hidden_state大小为(num_layers, batch_size, num_hiddens)
query大小为 (batch_size, 1, num_hiddens)

hidden_state[-1]取出了大小为(batch_size, num_hiddens)的矩阵。
query = torch.unsqueeze(hidden_state[-1], dim=1)hidden_state[-1]大小改为 (batch_size, 1, num_hiddens)然后赋值给query

Why key_size query_size num_hiddens are all equal to num_hiddens?

image
2.应该改为“最终“时间步的编码器全层隐状态