11.6.7 公式是不是错了,按此计算结果和原h(x)不对应。按11.6.7计算第二项是 - xTc,而11.6.6的第二项是+xTc
1 Like
我不知道哪个对,但是书中说的最优解和公式(11.6.7)确实是矛盾的
我试了一下,确实是这样的。。。。。。。。。
11.6.6以及x_和最小值都是对的,11.6.7是错的,它展开后跟原式第二项符号相反,结合下文:“梯度由∂_xf(x)=Q(x-Q_-1c)给出。也就是说,它是由和最小化器之间的距离乘以Q所得出的”这句话可进一步确定,距离应该是x-x_=x-(-Q_-1c)=x+Q_-1c,所以这里梯度也是错的,应该是∂_xf(x)=Q(x+Q_-1c)。下文的z也一样,但是这个错误不影响11.6.8及之后的逻辑
在原notebook中,错把后括号写成了中文后括号导致的
在后续11.8节中提到:
这里的泄露平均值第二项存在系数$(1-\gamma)$。而根据“平均值”一词的含义,也理应如此。但是在本节中却没有这个系数。本节提供的参考文献是一整本,没有具体指明页数,我没有去具体查找。谷歌直接搜索leaky average也无法得到相关结果。
我并不是说这里一定存在错误,而是我无法理解为什么要叫“泄露平均值”。在第二项权重不取(1-\gamma)的情况下,第一项展开后的权重和并不为1(甚至大于1)。