理解不了啊家人们。为什么给输入加上一个莫名其妙的函数会有用?有点好的数学性质那咋了,神经网络能把这个函数分离出来再提取信息?不能的话跟加噪声有啥区别?
![]()
详细的公式推导、不依赖于 d2l 的代码实现:
1 Like
谁能帮忙解释下这句话的意思:”任意的序列位置组合之间的路径越短,则能更轻松地学习序列中的远距离依赖关系“
这(10.6.1)是什么意思啊,(xi,xi)代表甚么?
例如一句话,自注意力机制虽然关注到了整句话中每个单词之间的相关性,但是却并没有顺序信息,一个词在同一句话的不同位置他的语义可能就是不同的。所以加上位置编码也许对语义的理解会有更好的帮助。这是我的个人理解,有错误的请大家批评指正。