自注意力和位置编码

http://zh.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.html

想請問,為什麼“在二进制表示中,较高比特位的交替频率低于较低比特位, 与下面的热图所示相似,只是位置编码通过使用三角函数在编码维度上降低频率。“
在low bit的地方變化大可以理解,他輸出的heatmap不是對應的是cos,sin函數編碼的結果嗎?他也有在low dimension的地方會頻率較大的問題嗎?
先謝謝各位看過。

low dimension频率是更大啊。你看PE那的频率 freq=\frac{1}{10000^{2j/d}},j越小freq越大。这就相当于PE的low dimension随position的变化跟用二进制heatmap编码里低位数的变化是类似的。

great。
问题是两者有对应关系吗,如果高低位对应反了又如何?毕竟固定类型的位置编码不会学习

1 Like