D2L Discussion
多头注意力
中文版
pytorch
faraway
July 11, 2025, 8:24am
68
运算方式不一样的,注意力的softmax,矩阵乘法都和单头不一样,看起来像单头只是因为一开始对Q,K,V的线性变换用了矩阵分块乘法的想法。
← previous page