多头注意力

运算方式不一样的,注意力的softmax,矩阵乘法都和单头不一样,看起来像单头只是因为一开始对Q,K,V的线性变换用了矩阵分块乘法的想法。

这个说的是做完self.W_q*queries后的形状,,