RMSProp算法

https://zh.d2l.ai/chapter_optimization/rmsprop.html

问题一,若设置gamma=1,则states无法更新,学习率为固定的值,由于之前states初始化为0,将使得学习率过大,从而导致无法收敛,loss=nan