https://zh.d2l.ai/chapter_optimization/optimization-intro.html
除了课程里介绍的几种优化算法,把进化算法(EAs)用于深度学习的优化是否有相关的例子呢
2 Likes
以下答案为个人观点,错误的地方请大佬指点:)
Q1
题目中的$d!$个等效方案翻译成等效解更好一点。
我们令输出层的输出为$Y_{out} = (w_1x + w_2x+…+w_d*x) + b$ 损失函数为$Loss(Y_{out}, Y_{true})$
题目中说对于任何local minima的点有$d!$个等效解,则说明不用考虑损失函数单调的情况(如$Loss = Y_{true}-Y_{out}$)
另外题目中的解针对的是权重$W = (w_1,w_2,…,w_d)$,因为$w_i$是可变的,$x$是传入的参数不可变的(我之前误解了)
等效解即为让$Y_{out}$值不变的解,因此只要对$W$内部的元素$w_i$进行全排列即可,故有$A^d_d = d!$种解。
Q2
(1) 将$|A-\lambda|$行列式中每一行取负数,因为$|A-\lambda| = 0$,所以$|-A - (- \lambda)| = -1^n|A + \lambda| = 0$
故$-\lambda$也是特征值。所以$P(\lambda>0) = P(\lambda<0)$。
(2) 因为还有$\lambda = 0$情况,即$Ax=0$ ,当$A$不可逆时有解。
Q3
合适的损失函数的选择问题,过拟合、泛化能力弱问题,梯度下降学习率选择问题
Q4
(1) 由于存在重力加速度,球下落的速度会逐渐变快
(2) 可以通过二阶导大小等来调节学习率
f(x)和g(x) 是风险函数f
和经验风险函数g
,它们不同可以就说明训练数据集的最低经验风险可能与最低风险(泛化误差)不同吗