https://zh.d2l.ai/chapter_multilayer-perceptrons/weight-decay.html
权重衰减的本意是限制维数吧。用L2范数也惩罚了大权重,这样好吗
1 Like
书上97页影响泛化的3个因素中只有第一个才是和维数有关,权重衰减就是对参数的取值范围加以限制,仅此而已
权重衰减的本意是限制维数吧。用L2范数也惩罚了大权重,这样好吗
书上97页影响泛化的3个因素中只有第一个才是和维数有关,权重衰减就是对参数的取值范围加以限制,仅此而已