随机梯度下降

https://zh.d2l.ai/chapter_optimization/sgd.html

这一章节的翻译错误比较多啊,比如: 其中f(ξt,x)是训练样本f(ξt,x)的目标函数:ξt从第t步的某个分布中提取,x是模型参数。

练习的第2题,如果x代表参数,w代表噪声的话,应该是w从正态分布中提取吧?

11.4.1中定义的sgd函数g1 += torch.normal(0.0, 1, (1,)) g2 += torch.normal(0.0, 1, (1,))应该改为g1 += torch.normal(0.0, 1, (1,)).item() g2 += torch.normal(0.0, 1, (1,)).item()吧,不然x1,x2就变成张量了,绘图那里要的是标量