门控循环单元（GRU）

Alex_Tsau · August 26, 2024, 9:22am

矩阵乘法相当于一个全连接层，执行的是仿射变换，元素积是线性变换。矩阵乘法应该表达能力更强一点，但是训练也慢一些？既然元素乘效果好就不用上矩阵了吧

myhz0606 · October 23, 2024, 2:16am

书本中的实现和论文中似乎不一致；
书本中通过
$\begin{aligned} { \boldsymbol { H } _ { t } = \boldsymbol { Z } _ { t } \odot \boldsymbol { H } _ { t - 1 } + ( 1 - \boldsymbol { Z } _ { t } ) \odot \tilde { \boldsymbol { H } } _ { t } . } \ \end{aligned}$
来更新隐状态，而论文中的更新公式为：
$\begin{aligned} { \boldsymbol { H } _ { t } = (1 - \boldsymbol { Z } _ { t } )\odot \boldsymbol { H } _ { t - 1 } + \boldsymbol { Z } _ { t } \odot \tilde { \boldsymbol { H } } _ { t } . } \ \end{aligned}$

TullyMonster · April 14, 2025, 3:05am

einstein99ium · August 26, 2025, 2:36am

为啥可以矩阵乘哇？它们不是都是n*h的矩阵吗？矩阵乘的话不行吧，H的列数和R或者Z的行数不相同

CHXD0406 · September 13, 2025, 9:07am

我猜原因可能出在grad_clipping上，如果假设grad随batch变化有固定方向的趋势，batch过大会使得对各个参数的梯度削弱严重，即为了追求整体的稳定，抹除了某一方向梯度信号的独立、特异的特征