前向传播、反向传播和计算图

xiaotinghe · December 7, 2021, 6:27pm

d2l-Commentor · January 8, 2022, 3:12pm

为啥这一章没人讨论呀， ____________________________________

wu_zheng · February 20, 2022, 2:00pm

这一小节中的计算图、反向传播等内容在视频课程中有介绍么

Sandra · March 12, 2022, 11:16am

没有单独视频————————————————

HeartSea15 · March 14, 2022, 2:03am

#######################################

Sandra · March 16, 2022, 12:15pm

因为 Screenshot 2022-03-16 at 13.11.55 是个向量。向量@矩阵和矩阵转置@向量的结果都是一样的，都是一个向量

Fox · May 1, 2022, 5:20pm

这一章的一些想法，剩下的放知乎里了

mtfelix · September 15, 2022, 7:48am

请问在计算图中，一个变量x(方框)只能输入给(指向)唯一一个操作符(圆圈)是吧？否则x.grad需要存储多个操作符对应的累积导数吧？

比如:
x->f1
x->f2

f1.backward()
f2.backward()

then, what is x.grad?

ZL_CHEN · September 30, 2022, 12:22pm

视频在哪里观看啊，评论区能放个链接嘛，z s b d

HJX · November 1, 2022, 2:49pm

书上有说，这个主要是因为prod运算符是指执行必要的操作，也就是说会自动根据需要进行换位和交换输入位置等，然后再进行相乘

Jin_Zhou · December 9, 2022, 7:20am

这个计算图非常重要，也是基础的基础，理解了计算图就理解了求梯度并更新的所有代码，强烈建议自己写个线性回归走一遍pytorch的计算图流程

saiku · April 14, 2023, 11:14am

b站搜李沐老师就能找到了（为什么要写满20个字才能发）

Yang_Tim · May 22, 2023, 7:23am

不对吧，假设向量的shape是(1,4)，矩阵的shape是(4,3)，向量@矩阵是(1,4)(4,3)=(1,3)，而矩阵转置@向量是(3,4)(1,4)无法进行矩阵运算的

leebyee · July 11, 2023, 4:13am

预测应该不需要这么多吧，我理解只存储当前层的输入输出是不就够了？不用保存前面层的信息，比如计算完h后，z的内存就可以释放掉了。

Fopdoodle · August 29, 2023, 3:31am

x.grad会累加的，所以一般每次迭代都会调用torch.grad.zero_()清除之前的导数

tx2002 · January 31, 2024, 11:27am

这章对初学者不太友好，鱼书的这部分会好懂很多

hedong_gong · February 20, 2024, 1:24pm

这章对权重矩阵L2范数的梯度计算好像有点问题，对平方和开根号的式子求导应该更复杂些

HelloWorldU · June 5, 2024, 7:32am

向量乘以矩阵的偏导就是矩阵的转置乘以向量啊

LyricsGo · June 26, 2024, 3:47am

因为用的是L2范数的平方（没有根号）

LyricsGo · June 26, 2024, 3:58am

原文
Besides, the size of such intermediate values is roughly proportional to the number of
network layers and the batch size.
大小→规模