数值稳定性和模型初始化

https://zh.d2l.ai/chapter_multilayer-perceptrons/numerical-stability-and-init.html

排列对称性那儿没看懂, 进行重排列是什么意思。有相关资料么?

按照我的理解,这句话的意思是指隐藏单元进行排列组合,改变相对位置。但是由于隐藏单元的权重相同,这几次的排列组合计算结果是相同的,因此,只需一个隐藏单元便可代替,从而论证了我们必须要打破对称性才能进行多个单元的有效利用。

2 Likes

我想起来之前,线性函数的层,叠加后仍然可以用一个线性函数代替,所以引入激活函数来增添非线性。这样的思想似乎有一点相通之处

1 Like

您好!老师,想请教下 “ 不幸的是,上面的问题更为严重: 最初,矩阵 M(l)M(l) 可能具有各种各样的特征值” 如何理解此处的特征值与矩阵求导之后相乘的关系。 :grinning:

这里不是矩阵求导相乘,而是把求导后的定义为矩阵M,(见4.8.2上的def)。
所以4.8.2相当于一堆矩阵最后乘了一个向量。

nout * sigma**2 = 1, 这个公式是怎么出来的?

1 Like

这一章的一些想法,剩下的放知乎里了

3 Likes

我理解的是当开始反向传播的时候,第一层就变成了n_{out},因为运算流程类似,也有无法收敛的问题,用对输入层同样的公式证明,需要吧int换成out,n_{out}*sigma**2=1才能保持方差稳定,个人理解,欢迎纠正。

1 Like

i和j,,为什么前向传播那块用上一层j的方差得到了下一层i的方差啊。i和j到底那个维度是该看出随机变量啊

详解深度学习中的梯度消失、爆炸原因及其解决方法 - 知乎 推荐阅读,对理解有帮助 :smiling_face_with_three_hearts: