多层感知机的从零实现

https://zh.d2l.ai/chapter_multilayer-perceptrons/mlp-scratch.html

只考虑要获得最佳结果就需要尽量小的学习率,相对更长的轮数,以及尽可能多的隐藏单元数。但是这会很耗时间,我们的时间有限所以需要通过调参试探多短时间内能得到满意的结果,所以刚开始要学习率大、轮数短、隐藏单元少。
轮数判断的依据是能不能使train loss趋于0、使train acc趋于1;学习率大小判断的依据是上述两条曲线有没有震荡;隐藏层数和隐藏单元数代表模型的复杂程度,模型过于简单或者过于复杂都会有害泛化能力,反映到曲线上就是train acc和 test acc离得很远,而且模型复杂了训练时间还长,应该从简单的往复杂试。