这一章节里(3.1.12)~(3.1.15)对于“最大似然估计”的描述跟我学的有点不一样…(欢迎讨论)
对于书上的这种问题设定,似然性可能是指w和b两个参量的性质。
可能这么说比较正确:
L(w,b)=p(y;x,w,b)
这个式子是:“对于给定y的参量w和b的似然性”。x一般看作全局定值。而且x、w、b在这个概率模型里都不是概率变量。
(如果写作p(y|x,w,b)的话,说明x,w,b还有进一步的先验概率假设 x,w,b ~ p(x,w,b)。那就属于贝叶斯风险估计量的领域了。)
最大似然是对 L(w,b)作argmax_w,b的操作。
不过文章里的结论是对的。在这种设定下确实最大似然估计量算出的w和b和最小均方差算出的w和b一致。