自注意力和位置编码

http://zh.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.html

这一节,我是真的没有理解,求大佬指点一下。

哪个部分不是很理解?可以一起探讨下呀? :grinning:

如果实在理解不了可以去看看中文版的书,感觉书上解释的还挺清楚的。

1 Like

中文版的书比在线版内容多很多吗?谢谢!
我这里也没怎么看明白。

确实不是很懂,没明白自注意力和位置编码有什么关系

个人理解,不是自注意力和位置编码有关系,而是因为自注意力实现的过程中把位置信息丢失了(如果你仔细的看一下自注意力机制的实现过程就会发现,对于每个位置做的操作是完全相同的),所以需要通过位置编码的方式把这种位置信息告诉神经网络。

这是由于attention 应用了BMM(批量矩阵乘法)机制导致,所以这应是所有attention的共性而不是self-attention个性。而Bahdanau attention正常是因为手工实现了loop保留了tokens位置关系。再次,‘self-attention’只是data角度考虑,不是model层级

其实有关相对位置和绝对位置这块,我也没看懂,中文书名叫什么吗?求