Adadelta

http://zh.d2l.ai/chapter_optimization/adadelta.html

简而言之,Adadelta使用两个状态变量,st用于存储梯度二阶导数的泄露平均值,Δxt用于存储模型本身中参数变化二阶导数的泄露平均值。

此处英文中是 the second moment,应该不是二阶导数。

3 Likes

确实是二阶矩,困惑了半个小时…看评论才焕然大悟…

我也感觉这个二阶导数很抽象,另外,这个the second moment我也不是很理解 :joy:

他就是用二阶矩来代替二阶导数, 看看andgrad那一节中有说明的