梯度下降

goldpiggy · July 29, 2021, 5:34am

HeartSea15 · April 25, 2022, 8:07am

请问这个是怎么推出来的，可以分享下详细步骤吗，谢谢。

yijie_01 · September 11, 2022, 2:14pm

我理解为11.3.8式子，就是上式对符号ε求导

Michael-Tian-Whu · January 10, 2023, 3:08am

HoshinoAkua · August 18, 2023, 10:05am

这里写的不好, 其实应该是g(ε) = f(x+ε); 则g(ε) - g(0) = f(x+ε) - f(x) = 展开的那一串. 此时若f(x+ε)达到了极小值点, 即g(ε) 达到了极小值点, (# 注意!!! 我们此时ε才是变量, x是常量), 对ε求导, 就可以得到后面的式子了.

HoshinoAkua · August 18, 2023, 12:56pm

这里面有个问题, 就是凸优化中没有规定何为"恒定"收敛速度, 在文中给出的例子, 牛顿法是二阶收敛的, 一般只有线性, 超线性, 次线性以及r阶收敛, 没有听说过恒定收敛这个词.

Lynnzake · August 6, 2024, 2:01pm

在预处理中，

这个公式是如何做到为每个变量选择不同的学习率的？

ytffj · January 19, 2025, 10:41am

这一节都没什么评论是不是很多人都看不懂。。我也是。。有没有数学大神出来完整解释一下

gitbugfsj · September 25, 2025, 5:07am

贴一下AI的回答：
核心思想：用二次函数局部近似目标函数，然后通过求解这个二次函数的极小值点来更新当前解。

对于一个多元函数 f(x)，在当前点 xk 处进行二阶泰勒展开：

为了找到这个近似二次函数的极小值点，我们对其求导并令导数为零：
屏幕截图 2025-09-25 130449

解得牛顿法的更新公式：
屏幕截图 2025-09-25 130509