自注意力和位置编码

理解不了啊家人们。为什么给输入加上一个莫名其妙的函数会有用?有点好的数学性质那咋了,神经网络能把这个函数分离出来再提取信息?不能的话跟加噪声有啥区别? :melting_face: :melting_face:

详细的公式推导、不依赖于 d2l 的代码实现: