数值稳定性和模型初始化

goldpiggy · January 14, 2021, 5:31am

https://zh.d2l.ai/chapter_multilayer-perceptrons/numerical-stability-and-init.html

ming_wang · July 3, 2021, 8:04am

排列对称性那儿没看懂，进行重排列是什么意思。有相关资料么?

bedoom · July 22, 2021, 11:29am

按照我的理解，这句话的意思是指隐藏单元进行排列组合，改变相对位置。但是由于隐藏单元的权重相同，这几次的排列组合计算结果是相同的，因此，只需一个隐藏单元便可代替，从而论证了我们必须要打破对称性才能进行多个单元的有效利用。

overmind110 · November 28, 2021, 8:10am

我想起来之前，线性函数的层，叠加后仍然可以用一个线性函数代替，所以引入激活函数来增添非线性。这样的思想似乎有一点相通之处

D2Ler · January 13, 2022, 6:05am

您好！老师，想请教下 “ 不幸的是，上面的问题更为严重：最初，矩阵 M(l)M(l) 可能具有各种各样的特征值” 如何理解此处的特征值与矩阵求导之后相乘的关系。

uniooo · January 14, 2022, 12:16am

这里不是矩阵求导相乘，而是把求导后的定义为矩阵M，（见4.8.2上的def）。
所以4.8.2相当于一堆矩阵最后乘了一个向量。

HeartSea15 · March 14, 2022, 6:10am

nout * sigma**2 = 1, 这个公式是怎么出来的？

Sandra · March 16, 2022, 3:20pm

Fox · May 1, 2022, 5:20pm

这一章的一些想法，剩下的放知乎里了

xiaoning_zhu · October 21, 2022, 1:36pm

我理解的是当开始反向传播的时候，第一层就变成了n_{out}，因为运算流程类似，也有无法收敛的问题，用对输入层同样的公式证明，需要吧int换成out，n_{out}*sigma**2=1才能保持方差稳定，个人理解，欢迎纠正。

liuhengh1846228102 · May 4, 2023, 12:05pm

i和j，，为什么前向传播那块用上一层j的方差得到了下一层i的方差啊。i和j到底那个维度是该看出随机变量啊

liyaxuanliyaxuan · June 9, 2023, 12:36am

详解深度学习中的梯度消失、爆炸原因及其解决方法 - 知乎推荐阅读，对理解有帮助

Wade_Fang · September 23, 2024, 7:04am

可以先画一个计算图，文中描写的公式是n_in个输入的情况下，单独的一个o_i的方差结果应该是什么，这是正向的传播过程，那么对于反向传播，现在假设有n_out个输出（即n_out个o_i）那么对于单独的一个输入（假设是x_i）的梯度的方差，可以想象一下，把之前的n_in个输入替换为n_out个输出，把o_i替换为x_i（也就是把计算图中的数据替换一下），最后梯度的方差的结果很自然的就可以将n_in改写为n_out了

Advancer137 · July 13, 2025, 9:27am

在推导xavier初始化的公式的时候，$\sigma^2$为什么取的是$\frac{1}{n_{in}}$和$\frac{1}{n_{out}}$的调和平均，而不是算术平均或几何平均等折中方法