稠密连接网络(DenseNet)

我遇到了一个问题,就是我仅仅将batch_size从256变成了512,test_acc却出现了剧烈的动荡,其中第一次训练的test_acc也只有0.82,远低于书中的结果,请问这是什么原理呀,我以为batch_size仅仅影响一次读入的数量,不影响最后的精度

我觉得应该从平均汇聚层和最大汇聚层的作用上来理解,汇聚层的作用是减少卷积层对网络结构的过度敏感,最大汇聚层只选择当前影响最大的元素,而平均汇聚层吸收了局部范围内的所有的元素特征。而过渡层的作用是减少通道数量,但是在减少的过程中应该要考虑所有通道学到的东西,因此这样看来平均汇聚层更合适些。

3.1试不了一点,简单把resize的值改成224,直接把我8g显存干爆了 :joy:

你好,2、3题的答案是否矛盾?如果不是,是什么原因导致DenseNet参数量小但占用更大呢?

尽管 DenseNet 通过特征复用减少了参数数量,但由于特征图拼接导致通道数累积、反向传播需要保存所有中间特征图以及拼接操作增加计算复杂度,导致其显存或内存消耗较高。因此,DenseNet 在内存使用方面比 ResNet 更为昂贵,特别是在处理高分辨率输入时显得尤为明显。

欢迎参观: