自注意力和位置编码

faraway · July 11, 2025, 8:56am

理解不了啊家人们。为什么给输入加上一个莫名其妙的函数会有用？有点好的数学性质那咋了，神经网络能把这个函数分离出来再提取信息？不能的话跟加噪声有啥区别？

TullyMonster · July 15, 2025, 11:33am

详细的公式推导、不依赖于 d2l 的代码实现：