线性回归

解析解的话绝对值和的最小值与平方和最小值等价,如|x - 1|+|y - 2|和(x- 1)^2 + (y -2)^2有相同的最小值点,应该是这样

这是一条用于测试发帖的语句 //////////////////////////////

作业题第一题第一问;

第一题第二问:


太奇妙了!

1 Like

一点愚见,供大家参考。本人较为愚笨,因而表述颇为啰嗦,请各位兄弟姐妹们见谅



1 Like

Q1:假设我们有一些数据x1, . . . , xn ∈ R。我们的目标是找到一个常数b,使得最小化∑ i(xi − b)2
A1:b大致是x的所有值的平均值,这正好是正态分布的均值。
Q2:推导出使用平方误差的线性回归优化问题的解析解。为了简化问题,可以忽略偏置b(我们可以通过 向X添加所有值为1的一列来做到这一点)。
A2:

使用随机梯度下降(SGD)的情况: 在以下情况下,随机梯度下降(SGD)可能更加合适:

  • 数据集非常大,求闭式解的计算量太大。直接计算 (XTX)−1(\mathbf{X}^T \mathbf{X})^{-1}(XTX)−1 可能不可行。
  • 需要实时更新模型,SGD可以逐步更新权重,每次使用一个数据点来更新。

闭式解失效的情况: 闭式解可能失效或不可行的情况包括:

  • 当 XTX\mathbf{X}^T \mathbf{X}XTX 不可逆时(例如,当特征之间高度相关,即多重共线性时)。
  • 数据集过大时,矩阵求逆的计算量太高,导致计算不可行。

Q3:假定控制附加噪声ε的噪声模型是指数分布。
A3:
1.


2. 由于绝对值损失在 yi=xiTwy_i = \mathbf{x}_i^T \mathbf{w}yi​=xiT​w 处不可导,所以求出解析解较为复杂,一般没有简单的解析解。在实际应用中,绝对值损失的最小化通常使用迭代方法(如梯度下降)来近似求解,而不是通过解析方法得到解。
3. 在使用随机梯度下降法时,当我们不断更新参数时,可能会在驻点附近出现震荡。这是因为绝对值损失函数的梯度在误差接近零时会发生跳变,导致优化过程在接近最优解时不平稳。
为了避免驻点附近的震荡问题,我们可以采取以下方法:

  • 学习率衰减:在优化过程中逐渐减小学习率,使得靠近最优解时步伐变小,从而减少震荡。
  • 动量法:在每次更新时引入动量项,帮助权重更新更平滑。
  • 使用替代损失函数:如 Huber 损失,它在误差较小时表现为平方损失,误差较大时表现为绝对值损失,从而兼具稳定性和平滑性。