这个就是表示问题 , 可能 torch 默认就是行列互换的形式
我的理解是反向传播计算梯度,share层的梯度会计算两次,这两次的结果会叠加,也就是你这个值是叠加两次后的梯度值
为什么5.2中第一个参数管理中的权重和偏置会有输出,但是没有给它们赋值啊,难道是因为初始化会随机生成权重和偏置吗?
既然叫“初始化”肯定就赋值了,可以在notebook中用??nn.Linear
命令查看说明,里面有具体的权重、偏置初始化说明。
有绑定层神经网络一次反向传播过程中,是不是靠后的层利用当前层计算的梯度更新,靠前的层才利用两层梯度的和更新?
请问,在参数构造这一节中的“从嵌套块收集参数”的rgnet(X)
的输出结果是一个2*1的向量,这两个值为什么会相等?