https://zh.d2l.ai/chapter_multilayer-perceptrons/numerical-stability-and-init.html
排列对称性那儿没看懂, 进行重排列是什么意思。有相关资料么?
按照我的理解,这句话的意思是指隐藏单元进行排列组合,改变相对位置。但是由于隐藏单元的权重相同,这几次的排列组合计算结果是相同的,因此,只需一个隐藏单元便可代替,从而论证了我们必须要打破对称性才能进行多个单元的有效利用。
我想起来之前,线性函数的层,叠加后仍然可以用一个线性函数代替,所以引入激活函数来增添非线性。这样的思想似乎有一点相通之处
您好!老师,想请教下 “ 不幸的是,上面的问题更为严重: 最初,矩阵 M(l)M(l) 可能具有各种各样的特征值” 如何理解此处的特征值与矩阵求导之后相乘的关系。
这里不是矩阵求导相乘,而是把求导后的定义为矩阵M,(见4.8.2上的def)。
所以4.8.2相当于一堆矩阵最后乘了一个向量。
我理解的是当开始反向传播的时候,第一层就变成了n_{out},因为运算流程类似,也有无法收敛的问题,用对输入层同样的公式证明,需要吧int换成out,n_{out}*sigma**2=1才能保持方差稳定,个人理解,欢迎纠正。