从全连接层到卷积

Q1感觉可以理解为权重矩阵为对角矩阵的全连接层

我的理解(不知道对不对)是这个地方是在证明卷积和全连接的区别(注意下标被重新索引了),当更换需要得到的像素位置的时候,全连接的权重也会有改变(会去使用新的像素位置的权重),为了实现平移不变性Vab相当于卷积核的权重,这样当卷积核移动的时候,权重是共享的。

1 Like

我不太理解6.1.1式中的W为什么是四阶权重张量,有人可以给我解答一下嘛?万分感谢!

你可以把[W]i,j,k,l的值看作是参数为i,j,k,l的四元函数。由于k=a+i, l=b+j, 即k和l也可以用i,j,a,b表示,即也可以将其看作i,j,a,b的四元函数,因此可以存在另一个四元函数[V]i,j,a,b,当满足k=a+i, l=b+j时,[V]i,j,a,b其值与[W]i,j,k,l相同。你的误区在于直接将对应的W和V的一对元素的下标等同起来了。或者换个说法,如果把k=a+i和l=b+j写成k=f(a, i),l=g(b, j),[W]i,j,k,l = [W]i,j,f(a, i),g(b, j),再将其写成以i,j,a,b为变量的四元函数,则是[V]i,j,a,b,因此二者之间存在双射关系,但不是恒等映射。希望对你有帮助。

其实可以把这里的四阶张量理解为四元函数。确定是几阶张量就是要确定函数有几个自由度。因为以传统全连接层的视角,要确定隐藏层中一个点的值,需要以原图中的一个点(i, j)为中心加权处理周围某个范围内的一整片像素值,只考虑单通道的情况下,权重矩阵需要对这一整片图像里的每一个点的像素加一个权重值,因此一个权重值需要四个变量来确定,即中心的位置i,j,以及周围的某个像素的绝对坐标k和l。如果把k和l用相对于(i, j)的相对坐标来写的话即a, b,权重矩阵就从[W]i,j,k,l变成了[V]i,j,a,b。后面加入平移不变性,所以i,j这两个参数就不需要了,因为只要a和b确定,对任何i, j,函数的值都不变化。而局部性就是控制了相对位移a和b的范围,并不需要遍历整张图像,而是只计算中心点附近的一块。

2 Likes

不好意思,我的数学很差,想问下这个三角形符号代表啥意思,,,,

那是一个数学符号delta 在这里代表一个阈值

原来如此,感谢解答~,数学都忘的差不多了,哈哈~


这里所说的“只是形式上的转变”感觉有点误导读者,这里感觉是把W.shape[-2:]=X.shape变为了W.shape[-2:]=X.shape or W.shape[-2:]!=X.shape,W的形状就从原本单一的形状变成了各种各样的形状,而此时的X和H就不一定具有相同的形状,这与上文的

相冲突

@Toka 解释的很好,谢谢。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

Q2: 为什么平移不变性可能也不是好主意呢?

个人认为除非是人为的像素级别的操作或数据增强,世界上任意两张照片没有严格的平移不变性。
我们通常意义上的平移不变性是后从宏观上认为的。
参考 https://browse.arxiv.org/pdf/1805.12177.pdf
该文章也像 @DJ_Zhu 所说,卷积的平移不变性有争议,

或者说卷积在设计时确实考虑了平移不变性,但由于卷积和池化操作有步长和范围限制,卷积只有对特定长度(大致理解为各卷积核步长的最小公倍数)倍数的物体平移有不变性
总结认为卷积在落实平移不变性时落实得非常差,卷积核越多,也就是网络越大,平移不变性越差。

这里其实是将全连接层往卷积层上引导,你将V看成是随位置(i,j)变化的卷积核就好理解了

我的理解是是分量对应相乘,四个角标索引就是一个scaler了

二维张量哪里来的通道,带有通道的是三维张量好吧,作者的意思是这个二维张量就是一个通道,图像的是三个维度是长宽通道数,你把其中一个通道拿出来不就是一个二维的张量…