矩阵乘法相当于一个全连接层,执行的是仿射变换,元素积是线性变换。矩阵乘法应该表达能力更强一点,但是训练也慢一些?既然元素乘效果好就不用上矩阵了吧
书本中的实现和论文中似乎不一致;
书本中通过
$\begin{aligned} { \boldsymbol { H } _ { t } = \boldsymbol { Z } _ { t } \odot \boldsymbol { H } _ { t - 1 } + ( 1 - \boldsymbol { Z } _ { t } ) \odot \tilde { \boldsymbol { H } } _ { t } . } \ \end{aligned}$
来更新隐状态,而论文中的更新公式为:
$\begin{aligned} { \boldsymbol { H } _ { t } = (1 - \boldsymbol { Z } _ { t } )\odot \boldsymbol { H } _ { t - 1 } + \boldsymbol { Z } _ { t } \odot \tilde { \boldsymbol { H } } _ { t } . } \ \end{aligned}$