自注意力和位置编码

理解不了啊家人们。为什么给输入加上一个莫名其妙的函数会有用?有点好的数学性质那咋了,神经网络能把这个函数分离出来再提取信息?不能的话跟加噪声有啥区别? :melting_face: :melting_face:

详细的公式推导、不依赖于 d2l 的代码实现:

1 Like

谁能帮忙解释下这句话的意思:”任意的序列位置组合之间的路径越短,则能更轻松地学习序列中的远距离依赖关系“

这(10.6.1)是什么意思啊,(xi,xi)代表甚么?

例如一句话,自注意力机制虽然关注到了整句话中每个单词之间的相关性,但是却并没有顺序信息,一个词在同一句话的不同位置他的语义可能就是不同的。所以加上位置编码也许对语义的理解会有更好的帮助。这是我的个人理解,有错误的请大家批评指正。