微分

我是这样理解的哈 。pdf文档第二个结果应该是w的转置。书中的第一个A转置是为了方便梯度下降的时候与x相加方便,正好A的转置的一行求和在和x相加。x也是个列向量。pdf中的原始的w矩阵,每一列刚好是各个y对x_i的影响,所以w矩阵列元素相加以后就是梯度下降计算的delta,这个时候是一个行向量显然不方便运算,转置一下正好和同是列向量的x相减方便。