动量法

https://zh.d2l.ai/chapter_optimization/momentum.html

11.6.7 公式是不是错了,按此计算结果和原h(x)不对应。按11.6.7计算第二项是 - xTc,而11.6.6的第二项是+xTc

1 Like

正如人们所期望的,由于其功效,动量是深度学习及其后优化中一个深入研究的主题。 例如,请参阅文章,这个链接标签是不是写错,需要去掉后面的站点信息才能跳转。

2 Likes

我不知道哪个对,但是书中说的最优解和公式(11.6.7)确实是矛盾的 :joy:

我试了一下,确实是这样的。。。。。。。。。

11.6.6以及x_和最小值都是对的,11.6.7是错的,它展开后跟原式第二项符号相反,结合下文:“梯度由∂_xf(x)=Q(x-Q_-1c)给出。也就是说,它是由和最小化器之间的距离乘以Q所得出的”这句话可进一步确定,距离应该是x-x_=x-(-Q_-1c)=x+Q_-1c,所以这里梯度也是错的,应该是∂_xf(x)=Q(x+Q_-1c)。下文的z也一样,但是这个错误不影响11.6.8及之后的逻辑

在原notebook中,错把后括号写成了中文后括号导致的

11.6.1.3中:


是不是把$\mathbf{v_t}$写成了$\mathbf{g_t}$……

在后续11.8节中提到:


这里的泄露平均值第二项存在系数$(1-\gamma)$。而根据“平均值”一词的含义,也理应如此。但是在本节中却没有这个系数。本节提供的参考文献是一整本,没有具体指明页数,我没有去具体查找。谷歌直接搜索leaky average也无法得到相关结果。

我并不是说这里一定存在错误,而是我无法理解为什么要叫“泄露平均值”。在第二项权重不取(1-\gamma)的情况下,第一项展开后的权重和并不为1(甚至大于1)。