多头注意力

faraway · July 11, 2025, 8:24am

运算方式不一样的，注意力的softmax，矩阵乘法都和单头不一样，看起来像单头只是因为一开始对Q，K，V的线性变换用了矩阵分块乘法的想法。