- $\partial f / partial \symbf{X} \in R^{(n \times m)}$
也许有误
你这个是不是添加偏置项后,又加了个激活层,要不然就没有o对a求导这部分吧
我感觉这里其实不能理解为正常的链式求导,实际上o对h的偏导数是一个三维张量,这里其实只是一种计算上的相等关系可以简化表达的方式,而不是根据链式法则推出的,具体可以参考这个https://math.stackexchange.com/questions/1621948/derivative-of-a-vector-with-respect-to-a-matrix