线性回归的简洁实现

wjshang · October 26, 2021, 3:06pm

想问一下源码中的@torch.no_grad()中的@是什么意思谢谢

susu_king · October 27, 2021, 7:58am

@torch.no_grad() 是装饰器，好像代表以下代码都在torch.no_grad() 运行后执行

wjshang · October 27, 2021, 1:38pm

哦哦，第一次知道@torch.no_grad() 是这样子，谢谢谢谢！

sofnfpfpfp · November 16, 2021, 7:42am

请问这句话 trainer.step() 的作用是什么？

wwr · November 28, 2021, 8:03am

老师说因为已经在loss函数里边累加了，所以不再需要累加。

anirudh · December 5, 2021, 4:53pm

Thanks for pointing it out, this has been fixed in the English version. See commit. We’ll also fix the same for the Chinese version.

CrazyTianC · December 7, 2021, 2:22am

我觉得准确的说应该是除以batch_size*特征维度；
结果并不离谱，最后输出的是求和的损失，看收敛速度就行

xxy · December 8, 2021, 8:36am

是这样的，我的理解是学习率变小了，虽然误差会变小，但训练速度变慢，刚开始训练误差较学习率大的要高。

xxy · December 8, 2021, 8:37am

第一道题改学习率的理由是什么？不懂。。

xxy · December 8, 2021, 8:38am

为什么要除以batch_size*特征维度呢？

CrazyTianC · December 23, 2021, 2:17pm

最后求loss的矩阵大小就是batchsize*特征维度，所以sum和mean之间的差是两者的乘积。

Ye_Zhang · January 6, 2022, 11:12pm

不是太理解tensordataset(’‘dataarray) 构建数据的方式，请问’'是干嘛用的，个人理解就可以直接
tensordataset(features, labels)

zxhd863943427 · February 1, 2022, 3:03pm

一个奇怪的问题，我观察代码的时候，似乎并没有看见损失函数

loss = nn.MSELoss()
l = loss(net(X) ,y)

与小批量随机梯度下降算法的代码

trainer = torch.optim.SGD(net.parameters(), lr=0.03)

产生联系，他们之间是怎么传递参数的？

PeWilson · February 14, 2022, 1:27pm

l.backward利用loss的结果将梯度存在了w和b中，进而在SGD的net.parameter中调用

Zflyee · February 17, 2022, 3:26am

我的理解是，执行前面的那个梯度步骤，通过调用优化器（trainer）来更新模型参数。

Yu_Han · March 7, 2022, 2:09am

我想问一下在 dataset = data.TensorDataset(*data_arrays)中，
*data_arrays前面的 “ * ” 是什么意思呢？有什么作用？

Yingying_SUN · March 7, 2022, 6:29am

f(*x)表示x为元组，所有对x的操作都应将x视为元组类型进行,，即所有传入f(*x）的变量都将作为元组x的元素之一。

winson_huang · March 7, 2022, 8:04am

for question3, we can use print(net[0].weight.grad) in training process to get gradient:
l = loss(net(X), y)
l.backward()
print(net[0].weight.grad)
trainer.step()

LTY-771153907 · March 22, 2022, 3:15am

hh，我也觉得需要加入，with torch.no_grad()，我试了一下，加或不加，好像都一样，请问一下您弄清楚了吗

chenweiwang · March 22, 2022, 1:52pm

只要放到l.backward()前面就行，梯度是否归零不影响求损失。