随机梯度下降

https://zh-v2.d2l.ai/chapter_optimization/sgd.html

这一章节的翻译错误比较多啊,比如: 其中f(ξt,x)是训练样本f(ξt,x)的目标函数:ξt从第t步的某个分布中提取,x是模型参数。