线性回归的从零开始实现

Siven_Lu · August 3, 2024, 1:30pm

假如y_hat.shape为[2,1]而y.shape为[1,2]，那么由于广播机制，y_hat - y 的shape是[2,2]，这样就导致loss的值算的不正确。

因为规则导致去执行广播而不是报错，会导致很难发现这个错误，使用reshape是非常推荐的做法。

gatsby · August 4, 2024, 7:23am

def squared_loss(y,y_hat):
return (y - y_hat) ** 2 / 2
与
def squared_loss(y,y_hat):
return (y.reshape(y_hat.shape) - y_hat) ** 2 / 2
的结果大相径庭这是为什么

gatsby · August 4, 2024, 7:40am

找到问题所在了
def squared_loss(y,y_hat):
#这里必须要要将y reshape一下因为他是一个向量e.g. Size[10] 而y_hat是一个矩阵 e.g.Size[10,1] 如果缺少了这个操作 pytorch的广播机制会将其结果变成Size[10,10] 一定要小心！！！
return (y.reshape(y_hat.shape) - y_hat) ** 2 / 2

gatsby · August 4, 2024, 8:33am

这里面传的参数是 ’列表‘ 而不是 ‘普通的变量’ 传递列表的时候就相当于别的语言的数组，你在函数内对传过来的数组操做同样改变了原数组的值，一个道理。如果传过来的是int型就改变不了了因为传递的不是引用而是copy

Siven_Lu · August 4, 2024, 8:54am

我认为“reshape()把梯度grad也带上一起reshape了”是不正确的。

我做了以下实验：

"""
注意看下面的代码，原size是[2,1], 仍reshape为[2,1]
如果你的说法是正确的，即reshape会涉及到w.grad的shape，那么此时w.grad的shape也不会改变
但是训练过程中会报相同的错误
"""
w = torch.zeros((2,1), requires_grad=True).reshape(2,1)

"""
注意看下面的代码，我们在reshape操作之后再进行requires_grad属性的设置
这样，在训练过程中不会报错
我们再回看上面一段代码，reshape操作是在requires_grad设置为True之后
所以一个合理的推测是，requires_grad设置为True之后，对w变量的很多操作都会被跟踪，
并建立起计算图。所以上面一段代码中的reshape操作被跟踪，对w的梯度产生了影响，而下面的就不会
"""
w = torch.zeros((1, 2)).reshape(2,1) # w的正确的size是[2,1]
w.requires_grad_(True)

hanmala123 · August 23, 2024, 7:11am

大哥，params是函数参数啊，全局环境里的params是作为参数传递到函数里的。你说的函数内能直接访问外部环境变量是闭包，这是两码事

gamebusterisme · August 28, 2024, 3:11am

這個是為了不要累積到梯度吧，每次更新完都要清空一次

vince_chung · September 5, 2024, 1:52am

执行d2l.set_figsize()时报错
AttributeError: module ‘d2l’ has no attribute ‘set_figsize’
这是什么原因呢？

Wesady · September 9, 2024, 6:38am

你没有在当前代码定义这个函数，不过这个函数在d2l里定义了，所以你可以.synthetic_data调用

Wade_Fang · September 10, 2024, 12:43am

你好，我在gitHub仓库中找到了关于本书习题的答案，希望这对你有所帮助
仓库链接：GitHub - datawhalechina/d2l-ai-solutions-manual: 《动手学深度学习》习题解答，在线阅读地址如下：

a1715013230 · October 13, 2024, 10:05am

感谢，十分有帮助，找了好久，

ErDong886 · October 27, 2024, 3:39am

1. 如果我们将权重初始化为零,会发生什么。算法仍然有效吗?
w，b如果全是0，那么由于w*x+b恒为0。算法失效。
2. 假设试图为电压和电流的关系建立一个模型。自动微分可以用来学习模型的参数吗?
可以，简单的电路其实是常微分方程。其方程可以线性相加。
3. 能基于普朗克定律48使用光谱能量密度来确定物体的温度吗?
不懂
4. 计算二阶导数时可能会遇到什么问题?这些问题可以如何解决?
由于需要保存中间的梯度，可能会消耗大量资源，然后需要更多算力？不懂
5.为什么在squared_loss函数中需要使用reshape函数?
以书中例子为例，一个是(2,1)而另一个是(2,)，维度不一样不能计算。
6. 尝试使用不同的学习率,观察损失函数值下降的快慢。
大致试了试0.001和1，如果太小（0.001）就下降的过慢，如果是1则会振荡。
7. 如果样本个数不能被批量大小整除,data_iter函数的行为会有什么变化?
会一直按batchsize去划分，但最终剩余样本不够分的时候会将这些作为一个batch

pizzacrystal · December 31, 2024, 9:35am

参数初始值不影响线性回归的梯度下降，算法仍然有效
可以
可以
需要在计算一阶导数时指定retain_graph=True，以缓存计算图
因为net()的输出是矩阵向量乘积，结果是个向量，而标签值y是个矩阵
data_iter最后一次取出的样本个数小于之前批次

ButuSun · January 3, 2025, 8:02am

我问了gpt，with的作用就是保护上下文，用于计算梯度的内存使用完被释放。

ButuSun · January 3, 2025, 8:29am

（3）普朗克定律计算黑体的辐射能量，所以可以。
（4）贴出来gpt给的参考。大概意思就是要重新设置一阶导数的计算图，再用新图计算二阶导。

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        # 计算损失
        l = loss(net(X, w, b), y)  # 小批量损失

        # 计算一阶导数并保留计算图
        grad_w, grad_b = torch.autograd.grad(
            l.sum(), [w, b], create_graph=True
        )

        # 计算二阶导数
        grad2_w = torch.autograd.grad(grad_w.sum(), w)[0]
        grad2_b = torch.autograd.grad(grad_b.sum(), b)[0]

        # 更新参数（简单示例，仅展示如何用二阶导数）
        with torch.no_grad():
            w -= lr * grad2_w / batch_size
            b -= lr * grad2_b / batch_size

        # 清零一阶导数
        w.grad = None
        b.grad = None

    # 计算当前模型的总损失（不需要梯度）
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

（5）y.shape是（10，1）而得到的标签y_hat.shape是（10，），所以需要reshape统一成（10，），用来计算损失
（6）学习率越大，损失下降的也就越大，但有可能错过最优解
（7）当样本数为10，batch为3，那么最后一个batch的数量就为1

songjunyang · April 26, 2025, 8:34am

单纯是为了省内存吧，如果是大数据量，可以不需要梯度计算的场合尽量用 torch.no_grad()

osquerkkzlk · June 24, 2025, 6:48am

我觉得不太全面，相反很容易误导新手。更准确的来说是，python函数确实传入了引用，但要记住：对于不可变对象而言，python会重新创建对象；对于可变对象，如列表等，则会继续引用，也就是说函数里面的对象和函数外的对象是同一个对象，可以使用id()区看看。这是常见的误区。

scy · July 16, 2025, 2:27am

之前也有这个疑问，趁机记录一下。张量确实没有行向量和列向量的区别，就是很单纯的一维张量，理论上既可以是行向量也可以是列向量。用reshape主要是把没有方向的张量去强制指定成一个列向量或者行向量。这个的主要目的是为了避免pytorch的广播机制去误判我们的意图。我们知道pytorch的矩阵运算并不是数学上标准的矩阵运算，广播机制使得我们可以用一行代码去处理批量的、组装成tensor的数据，而广播机制是基于自动推导类型的，如果不指定张量的形状，有可能出现不符合你预期的结果，同样，人为的指定一个形状也有助于梳理函数逻辑，帮助理解代码。 显式优于隐式 是 PyTorch 张量操作的重要原则。

zaxbyi · October 10, 2025, 12:58pm

我记得在自动微分的章节的下面的讨论中有人就是创建张量后reshapel了然后追溯梯度的时候就显示错误，你可以在那里看看，有个人的解释挺好的