我遇到了一个问题,就是我仅仅将batch_size从256变成了512,test_acc却出现了剧烈的动荡,其中第一次训练的test_acc也只有0.82,远低于书中的结果,请问这是什么原理呀,我以为batch_size仅仅影响一次读入的数量,不影响最后的精度
我觉得应该从平均汇聚层和最大汇聚层的作用上来理解,汇聚层的作用是减少卷积层对网络结构的过度敏感,最大汇聚层只选择当前影响最大的元素,而平均汇聚层吸收了局部范围内的所有的元素特征。而过渡层的作用是减少通道数量,但是在减少的过程中应该要考虑所有通道学到的东西,因此这样看来平均汇聚层更合适些。
3.1试不了一点,简单把resize的值改成224,直接把我8g显存干爆了
你好,2、3题的答案是否矛盾?如果不是,是什么原因导致DenseNet参数量小但占用更大呢?