自注意力和位置编码

xiaotinghe · December 7, 2021, 6:27pm

http://zh.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.html

uct8086 · June 28, 2023, 8:01am

这一节，我是真的没有理解，求大佬指点一下。

Summer_Xia · July 7, 2023, 11:15am

哪个部分不是很理解？可以一起探讨下呀？

yutongli18 · August 6, 2023, 8:57am

如果实在理解不了可以去看看中文版的书，感觉书上解释的还挺清楚的。

zileiye · August 30, 2023, 11:57am

中文版的书比在线版内容多很多吗？谢谢！
我这里也没怎么看明白。

Xer12306 · September 22, 2023, 1:20am

确实不是很懂，没明白自注意力和位置编码有什么关系

yutongli18 · October 13, 2023, 3:29am

个人理解，不是自注意力和位置编码有关系，而是因为自注意力实现的过程中把位置信息丢失了（如果你仔细的看一下自注意力机制的实现过程就会发现，对于每个位置做的操作是完全相同的），所以需要通过位置编码的方式把这种位置信息告诉神经网络。

JH.Lam · January 22, 2024, 6:42am

这是由于attention 应用了BMM（批量矩阵乘法）机制导致，所以这应是所有attention的共性而不是self-attention个性。而Bahdanau attention正常是因为手工实现了loop保留了tokens位置关系。再次，‘self-attention’只是data角度考虑，不是model层级

kaizen_w · February 14, 2024, 1:52pm

其实有关相对位置和绝对位置这块，我也没看懂，中文书名叫什么吗？求

flame_master · April 2, 2024, 8:24am

    说一下我的对于这个三角函数编码的理解，可能有不对的地方，大伙看看就行。
    首先对于编码我们自然而然能够想到二进制编码，这也是书中讨论的，在二进制编码中，随着数的增加，最低位(最右边)的二进制位一定是变化次数最多的，因为每隔一个数字他就会跳变一次。同理每隔两个数字，倒数第二位就会变一次，每个四个数字，倒数第三位变一次。可以看到在二进制编码中，存在不同位的变化频率不同的规律。
  再回到三角函数编码中，有n个序列，每个序列值的维度是d，三角函数编码每行随着d中2j的增大，频率会变低。也就是说，对于同一序列(三角编码的一行)，越靠后的改变频率越低。即用三角编码的一行的不同位置模拟了二进制编码(模拟了不同位频率不同的特点)。
  最后是P矩阵的热图(这里我的理解可能有些问题，可指正)，可以看到越靠左和靠下颜色越深越密集。靠下我是这么理解的:对于一个长序列，越靠后的在网络中留下的信息越多(离结果近所以记得牢),即靠下的序列权重更大。   然后越靠左信息越多这个我不还是不太明白为什么。

whaler404 · September 9, 2024, 3:40pm

我觉得很有道理，我是这么理解的，看课本中位置编码的热力图，当固定j不变的时候，周期不变，用三角函数的一个周期对不同的i进行位置编码；当j增大的时候，三角函数周期变大，可以理解为能进行位置编码的序列范围变大了，有点类似于增大卷积核的大小使得感受野变大。

Zhang_Kin · December 1, 2024, 8:45pm

浅浅记录一下三次阅读的一些点：

注意力：其实就是一种加权平均，qk/(v)
自注意力：是输入本身做注意力，所以qkv都是相同矩阵的
而位置编码正如 @yutongli18 和 @JH.Lam 提到的，是attention这种乘法机制需要一种位置编码

自注意力实现的过程中把位置信息丢失了（如果你仔细的看一下自注意力机制的实现过程就会发现，对于每个位置做的操作是完全相同的）图10.6.1

由于attention 应用了BMM（批量矩阵乘法）机制导致，所以这应是所有attention的共性而不是self-attention个性

而位置编码本身可以是一种nn.Parameters 当然也可以是直接的编码：二进制、三角函数、旋转位置RoPE；只要能遵循：为每个位置生成唯一的编码

我之前的困惑是三角函数其实是周期性的，所以并没有生成唯一编码；而实际上和ChatGPT几回合交流下，发现是在不同维度使用不同波长，比如公式10.6.2里 d是模型维度，所以每个维度都有不同频率；而同一维度下正因为有10000这个因子相乘并除；2pi * 10000，远超出模型可能遇到的最大序列长度，在实际应用中，序列长度通常是有限的，例如 512、1024 或 2048。这些长度远小于位置编码在各个维度上的重复周期。因此，在模型实际处理的序列长度范围内，位置编码是唯一的，不会发生重复

JH.Lam · December 16, 2024, 8:03am

这个问题着实没发现。不过现在从图上来看也应该看到大致是唯一的

HenryZhu1029 · January 12, 2025, 6:03am

按照上面对p中元素的定义，X的分母应该等于torch.pow(10000, (torch.arange(0, num_hiddens, 2, dtype=torch.float32) * 2) / num_hiddens)才对吧

xwnsz · January 15, 2025, 9:56am

它步长为2就是在乘二了，你再乘一个2就变成乘4了

ytffj · January 16, 2025, 12:44pm

这个位置编码要结合二进制编码来理解，二进制从低位到高位的0,1变换周期越来越长，对应到注意力的位置编码就是编码维度越往后即j越来越大的情况下，sin和cos值的变化周期也越来越大，使得不同行i不存在相同编码的情况。

ytffj · January 16, 2025, 12:56pm

以10000为底j为幂保证了位置编码越来越长的情况下，使得sincos值的变化周期越来越长，即从前一个值变化到相同值所需的i的间隔越来越大，即在有限的序列长度i下，位置编码j足够长的情况下每个序列值的位置编码是唯一的。

PaPa-jun · April 24, 2025, 9:42am

本章讲的 PositionalEncoding 的实现感觉不是很好用，我自己实验发现如果像文章中这样做的话，模型并不能很好地学习到位置信息，具体的表现就是如果在 MultiHeadAttention 里面用自注意力，取最后一个 token 的 hidden 作为输出，模型最后的效果远不如对 MultiHeadAttention 的输出在 seq_length 维度上做全局平均池化之后的效果好。因为全局平均池化可以聚合所有 token 的信息，因此忽略了位置信息的影响。解决方法是实现 PositionEncoding 的时候，不要用一个很大的矩阵直接初始化，最好还是根据自己的 seq_length 和 embedding 做一个适配的矩阵。

xphter · May 16, 2025, 1:35am

如果 num_hiddens 是奇数，文章中正弦位置编码的代码会报错

BrianGriffin · May 27, 2025, 6:14am

多头注意力需要 num_hiddens 能整除 num_heads