填充和步幅

https://zh.d2l.ai/chapter_convolutional-neural-networks/padding-and-strides.html

步幅大于1的优势在于可以快速的降低输出的维数

2 Likes

第三题很有意思啊,有没有大神知道的?对于音频信号来说步幅等于2是什么意思

  1. 对于本节中的最后一个示例,计算其输出形状,以查看它是否与实验结果一致。

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4)

输入(8,8),输出:0维:(8-3+0)/3+1=2(取下整数),1维:(8-5+1)/4+1=2

  1. 在本节中的实验中,试一试其他填充和步幅组合。
  2. 对于音频信号,步幅 2说明什么?
    我感觉就是一个音频最小单位由两个数字组成,不太清楚(请大佬指点)
  3. 步幅大于 1 的计算优势是什么?
    减小输出大小,提高计算速度。

在音频信号中,这里应该是指经采样后的离散数字信号x(n),步幅为2就是以2为周期对信号进行采样计算得到x(n/2),在频域上为F(2w)即fmax提高为原来的两倍

5 Likes

我觉得有点道理,可以把卷积理解为采样。支持。

1 Like

######################################

这描述的两种情况,这不一个意思嘛 ???这两种情况都是在X上,而不是核上填充的对吧。

1 Like

不是的,第二种情况下两侧填充不等长,上面向上取整,下面向下取整

1 Like

Q1: 对于本节中的最后一个示例,计算其输出形状,以查看它是否与实验结果一致。
A1: (8-3+0+3)/3=2, (8-5+1*2+4)/4=2

Q2: 在本节中的实验中,试一试其他填充和步幅组合。
A2: 略

Q3: 对于音频信号,步幅2说明什么?
A3: 借鉴@lan_leo的说法。对于音频信号而言,步幅为2就是以2为周期对信号进行采样计算。

Q4: 步幅大于1的计算优势是什么?
A4: 可以迅速降低输出的大小,减少计算量,加快训练。

我理解的是,在x(n)进行步幅为2的采样后,应该相当于和原来的x(n)相比,对音乐的采样率变低了,即x’(n)=x(2n)。这也就意味着fmax变为原来的二分之一。
因为步幅变大,损失掉的信息肯定会变多,所以我的想法和你有些冲突,也可能是我没有理解题意,欢迎讨论。

1 Like

X = X.reshape((1,1)+ X.shape) 为什么(1,1) + X.shape 就可以变为四维了,有大佬可以帮忙解释一下吗?

我尝试了conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(2, 1), stride=(3, 4)),为什么输出的shape是[4, 2]?按照计算公式(8 - 3 + 2)/3 + 1 = 3,应该是[3, 2]才对

应该是 (8-3+2*2+3)/3 并向下取整,为12/3=4, 因为padding是两边都添加了,所以应该乘以2,个人见解。

1 Like

第一问不是的哦,padding=1,是宽度的两边都填充1吧,所以说,填充的应该是2
所以是(8-5+1*2)/4+1=2

1 Like

我也有点疑问在这里,于是我简单试了下面的这个命令

print((1,1)+(1,1)) #输出为(1,1,1,1)

为了进一步探寻原因,防止因为pytorch的环境才符合以上规则,
我进一步使用了python在线编译的环境运行了上面的代码,输出还是不变
最后在菜鸟教程里面找到了答案(元组(Tuple)的连接运算符),如下:

2 Likes

应该是下采样,我同意你的观点。。。。。。。。。。。。。。

应该是(8-3+2*2)因为是两边填充,这样算下来是对的

  1. 对于本节中的最后一个示例,计算其输出形状,以查看它是否与实验结果一致。

    一致

  2. 在本节中的实验中,试一试其他填充和步幅组合。

  3. 对于音频信号,步幅2说明什么?

    提取音频信号的 粗粒度特征, 步幅为2就是以2为周期对信号进行采样计算。

  4. 步幅大于1的计算优势是什么?

​ 可以很快的提取图片的大致特征,快速的降低输出的维数

如果要用CNN处理音频信号一般是通过STFT将离散时间(序列)数据转化为 行:序列段(时间帧),列为:频域 的二维数据,如果有多声道就在第三个维度上拓展。由于步长变长,那么输出的尺寸(时间和频域)就会变小,同时将cnn用于音频可以认为是考虑不同时间段上,频域特性的关系,所以当步长变大意味着考虑时间和频域数据的关系不再紧密。
如果抛开神经网络来谈,音频的步长应该是数字信号中时域或频域的采样间隔