Softmax回归

https://zh.d2l.ai/chapter_linear-networks/softmax-regression.html

1 Like

对比着第一版,阅读了本节,总觉得读起来很“卡”,不如第一版来的自然而易于理解(不仅是文字翻译上的“卡”,整个行文逻辑也不如第一版)。
第一版(3.4. softmax回归)读起来像中国话,第二版看起来像是由英语翻译过来的,特别别扭。
不知道是不是我自己阅读理解的水平问题。 :roll_eyes:

8 Likes

Thanks @zppet for your feedback, 由于时间限制,这一版有点仓促。 如果哪些语句可以改进,请发 PR 做 d2l 的 contributor!

建议把3.4.7.2. 的惊讶改为“信息量”,这样更专业,然后熵是一个分布的信息量的期望,描述了分布的不确定性,即混乱程度

1 Like

请问公式3.4.9最后一步是怎么推过来的呀:
貌似Yi直接都等于1了?

3.4.7怎么来的,一脸懵逼…

1 Like

喔,这个对熵和交叉熵的形容,有点过于妙了

关于本节中的式(3.4.6)和式(3.4.7)中的数学符号P改成符号L是否更好?因为我相信这里应该强调的是似然\可能性(likelihood)而不是概率(probability),既然我们这里讨论的是最大似然估计。

2 Likes

3.4.6等式两边同时取log啊,乘法就变加法了

1 Like

问题都挺难的,只做了第一道题,二阶导数是softmax(Oj)+(softmax(Oj))**2

Y是独热向量,无论是哪一个Yj,只有Yj=1,其他都是0, 所以最后总和是1

关于3.4.8, 不太明白等式右边yj×log(y^j)里面的第一个yj 怎么出来的

第一个yj 是真实y的独热编码的第j位 不是0 就是1

1 Like

老实说,感觉是机器翻译一样。。。
读起来非常生涩,估计是我水平不够= =

softmax(oj) * (1-softmax(oj))

4 Likes

3 Likes

image
报告一个错误,然而“我们”

7 Likes

请问如何理解“梯度是真是概率和预测概率的区别”这句话?

3 Likes

3.4.6中的公式log不写底数看起来好奇怪,感觉应该写ln,后面求导直接用的ln

大佬,能看看你的过程吗,我不会做哈哈……