多层感知机的简洁实现

Wesady · January 9, 2025, 6:34am

现在还是在用cpu训练，要使用gpu的话需要把模型等to devices(cuda)

pizzacrystal · January 22, 2025, 2:40am

我也遇到了。从实验结果看，使用uniform必须保持区间对称，[-1,0]、[0,1]、[-2,1]、[-1,2]都会遇到梯度消失的问题，原因不清楚。

pizzacrystal · January 22, 2025, 2:43am

请问这么设置区间，背后的原理或者说原因是什么呢？

pizzacrystal · January 22, 2025, 2:49am

在使用uniform分布初始化线性层权重时遇到个问题——如果分布区间关于y轴不对称，模型就会因为梯度消失而无法正常工作，具体结果如下，同时也尝试了类似[-2,1]、[-1,2]等更多的非对称区间，无一例外。
有哪位同学能解释一下原理吗？先行谢过

a=-1, b=1

a=0, b=1

a=-1, b=0

petr111chor · February 7, 2025, 11:07am

修改了一下网络的层数，多加了一层隐藏层，同时把epoch调为20，训练的结果loss还挺低的，我的net长这样：
net = nn.Sequential(nn.Flatten(),
nn.Linear(784, 256),
nn.ReLU(),
nn.Linear(256, 64),
nn.ReLU(),
nn.Linear(64, 10))
训练的结果长这样：
mynet