线性回归

这一章节里(3.1.12)~(3.1.15)对于“最大似然估计”的描述跟我学的有点不一样…(欢迎讨论)

对于书上的这种问题设定,似然性可能是指w和b两个参量的性质。
可能这么说比较正确:
L(w,b)=p(y;x,w,b)
这个式子是:“对于给定y的参量w和b的似然性”。x一般看作全局定值。而且x、w、b在这个概率模型里都不是概率变量。

(如果写作p(y|x,w,b)的话,说明x,w,b还有进一步的先验概率假设 x,w,b ~ p(x,w,b)。那就属于贝叶斯风险估计量的领域了。)

最大似然是对 L(w,b)作argmax_w,b的操作。

不过文章里的结论是对的。在这种设定下确实最大似然估计量算出的w和b和最小均方差算出的w和b一致。

第一问:

  1. 样本均值
  2. 如果假设原始数据服从正态分布,那么所求的样本均值恰好为给定了观测数据后,正态分布系数\mu的极大似然估计。

第二问:

  1. 解析解更加精确,数据量不大的时候更好。如果样本量过大,可能导致求逆困难,这时候解析解复杂度更低

第三问:

  1. 其实就是预测值和真实值的曼哈顿距离。(忽略常数和正系数)
  2. 带着绝对值没法求导,要利用符号函数,但0处没有值
  3. 会导致步长恒定,在学习率也恒定的情况下没法很好收敛到驻点。使用学习率动态调整的方法可以解决吧。