多GPU训练

xiaotinghe · May 8, 2021, 8:12pm

ronnyyoung · June 11, 2021, 4:12am

new_params = [p.clone().to(device) for p in params]

这里为什么要用clone()呢，to()方法一般都会返回copy吧

Charles · June 21, 2021, 9:16am

沐神说了可加可不加，之所以写clone是因为假设p已经在GPU0上了，再to到GPU0上的话，它是不会做任何操作的，clone了再to的话它永远会帮你复制。保险起见，可以clone，但实际上在这个情况里不用是没关系的。可以看b站回放，34集02:13。

11133 · September 8, 2021, 9:20am

把GPU数量改成4个以上的时候acc会暴跌。

11133 · September 9, 2021, 8:12am

已经解决，书中allreduce 代码有错误。因为赋值给其他gpu的时候用的是 =，所以赋值失败，实际上其他gpu没有得到更新的数据，除了0号gpu的数据是叠加的，其他的没有叠加过。

xueruoyao · November 12, 2021, 7:15am

我也有个疑问，这里用clone的话应该是有梯度回溯功能的，等于其他gpu的参数反向传播得到的梯度值应该会自动加到原参数（gpu0）梯度上面去，那为什么后面还要再统计一遍梯度呢？我觉得可以直接把已经汇总的梯度从GPU0传到其他GPU才对吧

xueruoyao · November 12, 2021, 7:18am

请问这里不用=的话应该用什么才对呢，感觉allreduce函数的将其他GPU梯度统计到GPU0上也是没必要的，因为前面用的clone，有梯度回溯功能。不知道这么说对不对

anirudh · December 5, 2021, 4:30pm

Fixed in PR #1021. Thanks @11133

Michael-Tian-Whu · March 2, 2023, 8:59am

参考12.6 pytorch集成的代码，loss是在整个batch上求的平均，那本节感觉反向传播的时侯少了一步，

应该是要在0号GPU聚合loss，再传给每一个其他的GPU求梯度？不知道正不正确

jijingdeyi · June 5, 2023, 12:09pm

我的理解是，损失和梯度都在各自的设备上计算，最后，再把梯度聚合广播到所有设备。代码中好像是在0号GPU中聚合梯度，然后再把梯度广播到其他GPU。

bepluvia · October 17, 2024, 3:26am

@anirudh 我在运行时，发现这里如果不使用深拷贝，会导致梯度无法成功传播到指定device中，完全复制网站中的代码是行不通的。
这里该如何理解呢？