权重衰减

https://zh.d2l.ai/chapter_multilayer-perceptrons/weight-decay.html

权重衰减的本意是限制维数吧。用L2范数也惩罚了大权重,这样好吗