Softmax回归

shayneliu · January 1, 2022, 2:55am

3.4.7建议解释下，看的一脸懵逼，下面的回复解释的也不太清晰

xiaodi · January 18, 2022, 3:46am

这一节分类标签，(鸡，猫，狗)，上下文不一致。

haowei_liu · January 21, 2022, 6:57am

请问“课后联系”的代码在哪里可以下载？或者文档也可以

richard001 · January 23, 2022, 11:53am

richard001 · January 23, 2022, 11:56am

这部分不少人读不懂，感觉不是很通透，希望解答下

zxhd863943427 · February 2, 2022, 4:15pm

@richard001 @shayneliu @aaronshi2017

@goldpiggy 顺便一提，我能把这个插入到源文件中吗？我觉得目前的解释有点过于精炼了……

951822287 · February 9, 2022, 11:44am

好棒！懂了。不过3.4.7中，请问为何直接就相等了呀。不理解

zxhd863943427 · February 11, 2022, 8:57am

这是一种简略的写法，实际上是新定义了一个函数，也就是，使其等于

Stanley · February 23, 2022, 2:29am

请问我应该如何发“PR”呢？页面上好像没有找到这个选项，谢谢！

zxhd863943427 · March 1, 2022, 2:08pm

应该在github的界面上发，这里是没有的

Fox · March 3, 2022, 6:43pm

我尝试做了一下第一题和第三题，也不知道对不对，我把这一章其它题目自己做的过程放在我的知乎里了《动手学深度学习》第三章，本人水平有限，做题过程也许有错，但是希望对大家有些许帮助~

Fox · March 3, 2022, 6:43pm

HeartSea15 · March 9, 2022, 9:27am

###########################################################################

3.4.9公式的第二行到第三行中，为什么yj的求和在第一项中去掉了，在第二项中保存下来了？？？？？

skbao · April 11, 2022, 8:57am

第一项后面是k，所以可以直接加了，加起来是1，所以省略

asdgre12 · April 19, 2022, 3:08am

能否用神经网络去拟合pytorch中内置的损失函数BCELOSS，如果能网络结构应该是怎么样的》？

Little_Blue · April 19, 2022, 1:05pm

请问3.4.6.2损失函数求梯度为什么是对o_j求导，而不是对参数求导呢？

zgpeace · May 4, 2022, 2:42pm

pytorch里有错别字，然而我妈 → 然而我们

tiejiankudan · May 17, 2022, 5:28am

3.4.7到3.4.8的推导：输入[x1, x2, …, xd]到网络中得到输出[y’1, y’2, …, y’q]，注意这里的每个输出y^i都是已经使用softmax归一化的概率。这时我们样本的标签对应为[0, 0, …, 1, …]，就假设第i类为1好了，即yi=1，那么这时 p(y=i | X) = y’i。那么我们如何写成一个一般化的式子表示p(y=i | X)的概率呢？不妨这样表示 p(y = i | X) = (y’1 * y1) * (y’2 * y2) * … (y’i * yi) …(y’q * yq)。这样的话我们就可以得出极大似然估计的表达式了，即3.4.7 和 3.4.8。(‾◡◝)

syc · September 23, 2022, 7:51pm

AttributeError: module ‘torch’ has no attribute ‘synthetic_data’
AttributeError: module ‘torch’ has no attribute ‘set_figsize’
我在运行代码时出现这样报错有大佬可以帮我解析一下吗？抱歉我是个编程小白

Yike_Tan · November 10, 2022, 11:20am

楼上很多对3.4.7怎么推到3.4.8的讨论，我个人一开始没理解用极大似然怎么推出这个条件概率值的表达式，但是看了一下@zxhd863943427的推导也理解了：
极大似然是通过改变模型的参数θ，使得观测的事件发生的概率最大，这里θ就是估计的y的概率分布，所以要改变y的分布的值（特指yj情况下的y*）来使得发生事件（指这里的一个个样本，相互对立假设下概率值直接相乘）的概率最大，上述概率都是指给定x下的条件概率。
我就补充这个理解吧，具体计算再去看@zxhd863943427写的回答应该能看得更懂一些。（有错请指正我，概统已经是一年前学的了）