Adadelta

http://zh.d2l.ai/chapter_optimization/adadelta.html

简而言之,Adadelta使用两个状态变量,st用于存储梯度二阶导数的泄露平均值,Δxt用于存储模型本身中参数变化二阶导数的泄露平均值。

此处英文中是 the second moment,应该不是二阶导数。

1 Like

确实是二阶矩,困惑了半个小时…看评论才焕然大悟…