Softmax回归 - 中文版 - D2L Discussion

Mar '21

zppet

对比着第一版，阅读了本节，总觉得读起来很“卡”，不如第一版来的自然而易于理解（不仅是文字翻译上的“卡”，整个行文逻辑也不如第一版）。
第一版（3.4. softmax回归）读起来像中国话，第二版看起来像是由英语翻译过来的，特别别扭。
不知道是不是我自己阅读理解的水平问题。

7 replies

Mar '21 ▶ zppet

goldpiggy

Thanks @zppet for your feedback, 由于时间限制，这一版有点仓促。如果哪些语句可以改进，请发 PR 做 d2l 的 contributor!

3 replies

May '21

whistlenow

建议把3.4.7.2. 的惊讶改为“信息量”，这样更专业，然后熵是一个分布的信息量的期望，描述了分布的不确定性，即混乱程度

2 replies

Jun '21

Renjie_Hu

请问公式3.4.9最后一步是怎么推过来的呀：
貌似Yi直接都等于1了？

1 reply

Jun '21

lhyakn

关于本节中的式(3.4.6)和式(3.4.7)中的数学符号P改成符号L是否更好？因为我相信这里应该强调的是似然\可能性（likelihood）而不是概率（probability），既然我们这里讨论的是最大似然估计。

Aug '21

aaronshi2017

问题都挺难的，只做了第一道题，二阶导数是softmax(Oj)+(softmax(Oj))**2

3 replies

Aug '21 ▶ Renjie_Hu

aaronshi2017

Y是独热向量，无论是哪一个Yj，只有Yj=1，其他都是0，所以最后总和是1

Aug '21

aaronshi2017

关于3.4.8，不太明白等式右边yj×log(y^j)里面的第一个yj 怎么出来的

2 replies

Sep '21 ▶ aaronshi2017

MatrixLyz0623

老实说，感觉是机器翻译一样。。。
读起来非常生涩，估计是我水平不够= =

Nov '21 ▶ aaronshi2017

crying_cat

softmax(oj) * (1-softmax(oj))

2 replies

Nov '21 ▶ guo

SupritYoung

请问如何理解“梯度是真是概率和预测概率的区别”这句话？

1 reply

Dec '21

pytorchNoob

3.4.6中的公式log不写底数看起来好奇怪，感觉应该写ln，后面求导直接用的ln

Dec '21 ▶ aaronshi2017

Ethan

大佬，能看看你的过程吗，我不会做哈哈……

Dec '21 ▶ crying_cat

haowei_liu

请问“课后联系”的代码在哪里可以下载？或者文档也可以

Jan '22 ▶ goldpiggy

zxhd863943427

@richard001 @shayneliu @aaronshi2017

@goldpiggy 顺便一提，我能把这个插入到源文件中吗？我觉得目前的解释有点过于精炼了……

5 replies

Feb '22 ▶ zxhd863943427

951822287

好棒！懂了。不过3.4.7中，请问为何直接就相等了呀。不理解

1 reply

Feb '22 ▶ 951822287

zxhd863943427

这是一种简略的写法，实际上是新定义了一个函数，也就是，使其等于

1 reply

Feb '22

Stanley

请问我应该如何发“PR”呢？页面上好像没有找到这个选项，谢谢！

1 reply

Mar '22 ▶ Stanley

Fox

我尝试做了一下第一题和第三题，也不知道对不对，我把这一章其它题目自己做的过程放在我的知乎里了《动手学深度学习》第三章，本人水平有限，做题过程也许有错，但是希望对大家有些许帮助~

3 replies

Mar '22 ▶ Fox

HeartSea15

###########################################################################

3.4.9公式的第二行到第三行中，为什么yj的求和在第一项中去掉了，在第二项中保存下来了？？？？？

2 replies

Apr '22 ▶ HeartSea15

asdgre12

能否用神经网络去拟合pytorch中内置的损失函数BCELOSS，如果能网络结构应该是怎么样的》？

Apr '22

Little_Blue

请问3.4.6.2损失函数求梯度为什么是对o_j求导，而不是对参数求导呢？

1 reply

May '22

3.4.7到3.4.8的推导：输入[x1, x2, …, xd]到网络中得到输出[y’1, y’2, …, y’q]，注意这里的每个输出y^i都是已经使用softmax归一化的概率。这时我们样本的标签对应为[0, 0, …, 1, …]，就假设第i类为1好了，即yi=1，那么这时 p(y=i | X) = y’i。那么我们如何写成一个一般化的式子表示p(y=i | X)的概率呢？不妨这样表示 p(y = i | X) = (y’1 * y1) * (y’2 * y2) * … (y’i * yi) …(y’q * yq)。这样的话我们就可以得出极大似然估计的表达式了，即3.4.7 和 3.4.8。(‾◡◝)

Sep '22

syc

AttributeError: module ‘torch’ has no attribute ‘synthetic_data’
AttributeError: module ‘torch’ has no attribute ‘set_figsize’
我在运行代码时出现这样报错有大佬可以帮我解析一下吗？抱歉我是个编程小白

Nov '22

Yike_Tan

楼上很多对3.4.7怎么推到3.4.8的讨论，我个人一开始没理解用极大似然怎么推出这个条件概率值的表达式，但是看了一下@zxhd863943427的推导也理解了：
极大似然是通过改变模型的参数θ，使得观测的事件发生的概率最大，这里θ就是估计的y的概率分布，所以要改变y的分布的值（特指yj情况下的y*）来使得发生事件（指这里的一个个样本，相互对立假设下概率值直接相乘）的概率最大，上述概率都是指给定x下的条件概率。
我就补充这个理解吧，具体计算再去看@zxhd863943427写的回答应该能看得更懂一些。（有错请指正我，概统已经是一年前学的了）

Jan '23

geniuszxd

关于线性层和非线性层，不知道我理解的对不对，请大家批评指正。
这个模型包含了一个全连接层（线性）和一个softmax层（非线性）。
深度学习中只有线性层的情况下是无法作用于复杂问题的，而有了softmax层作为非线性层，就可以不加relu或者sigmoid层，也可以跑出正确的结果。

Jan '23 ▶ zxhd863943427

BYSuccess

2 replies

Feb '23 ▶ BYSuccess

KuXingRen

我的理解是，P(y’i | x’i) 描述的是一个概率，它的结果是一个标量而不是向量，所以 log P(y’i | x’i) 与 y_hat 'i 之前是无法划等号的。
根据 3.4.1 中的内容可知，每种类别对应的独热编码是唯一的，即第 n 个分量为 1 的 y 只有一个。或者说，独热向量 y 描述的是一个事件A，若 y 的第 n 个分量为 1 ，则事件 A 表示输入的 x 为第 n 类。
所以，假设向量 y’i 的第 n 个分量为 1 ，它的概率应该为 P(y’i | x’i) = P(y_n | x) = y_hat_n
希望对你有帮助

Mar '23 ▶ zppet

wangweizaibeijing

我也有这个感觉，为什么第一版读起来很流畅

Apr '23 ▶ BYSuccess

Emma-1123

同样的疑惑，看到这块内容，感觉这里的公式表述不是很严谨，容易让人理解成一个向量。

Apr '23 ▶ crying_cat

harry_more

我推出来也是这个答案，看起来大家应该都差不多

Apr '23 ▶ Fox

L2DO

兄弟写的很详细，我想的是如果把你第一题第二问中的o换成y会不会简洁一些，而且题干中要求使用二阶导数表示。还有第一题第一问，为什么前面对oj求二次导，后面又对oi求导了？没看明白

Apr '23 ▶ Fox

L2DO

在兄弟贴中补充一下第二题我的浅薄理解：第一问将概率编码为二进制，特别是概率相等情况下，由于存在小数二进制编码问题从而存在精度问题，对于1/3无法用二进制编码精确表示，那么为了保证概率之和为一，编码后的概率将不再相等。第二问，使用哈夫曼编码两个独立的观测数据会发生什么？联合编码n个观测值呢？我觉得哈夫曼编码虽然能解决无损问题，但对于多个观测值需要建立庞大的编码表。这个问题关键应该在于独立性和联合性，我猜测这种编码同时存在无损概率表示，且满足独立可乘性质。然而这种编码是什么已经超出我的知识范围了。。。

1 reply

May '23 ▶ whistlenow