简而言之,Adadelta使用两个状态变量,st用于存储梯度二阶导数的泄露平均值,Δxt用于存储模型本身中参数变化二阶导数的泄露平均值。
此处英文中是 the second moment,应该不是二阶导数。
3 Likes
确实是二阶矩,困惑了半个小时…看评论才焕然大悟…
我也感觉这个二阶导数很抽象,另外,这个the second moment我也不是很理解
他就是用二阶矩来代替二阶导数, 看看andgrad那一节中有说明的