多层感知机的从零实现

这边我是没有使用torch的SGD,而是使用了之前的手动实现,会因为第一的准确率太低而导致程序终止,请问为什么会出现这样的结果?