锚框

這麽長一篇評論,只有这一个答案是靠谱的。

1 Like

:+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+ :clap: :clap:

代码里输入的r’是锚框的w/h,书里给的r是锚框的(w’/h’)除以原图的(w/h),而代码里把r’当作r来算,最后为了满足w/h=r’,让w’乘以了 in_height / in_width.
实际上r = r’ * in_height / in_width. 和你下面的式子等价。当然两种方法都可以生成正确的锚框,就是逻辑和代码有出入。

以同一像素为中心的锚框的数量是n+m−1。这里n+m-1计算方式是这样的,比如考虑缩放比s1,s2,s3,宽高比:r1,r2,r3。文中提到“ 在实践中,我们只考虑包含s1或r1的组合:”,所以这里的生成的锚框个数是:
(s1,r1),(s1,r2),(s1,r2),
(s2,r1),(s2,r2),(s2,r2),
(s3,r1),(s3,r2),(s3,r3),
这里的锚框就是包含r1+包含s1的锚框,即:(s1,r1),(s1,r2),(s1,r2),(s2,r1),(s3,r1),一共m+n-1 = 3+3-1=5个

这里的只要一个锚框和真实边界框的交互比大于设定值0.5即会完成分类,这里还没有进行后面的非极大抑制的操作呢

写得很清晰明了,看你的看懂了 :smiling_face: :smiling_face::smiling_face::smiling_face::smiling_face:

看了上面的评论看了一下午一直没看明白,看到你这里才感觉恍然大悟,谢谢!

刚刚弄懂前面讲的代码,你这里有给出了示意图,d2l的代码中讲的就是第三种,但是在代码的w中多*了in_height / in_width。感谢

标记,此解释正确,代码合理且通俗易懂。书中的讲解及代码均将r理解为宽高比的缩放,不过理解为宽高比缩放的话,w的那一段代码就不应该* in_height / in_width,不过这种情况下r=1就不是正方形了(本来就不应该是正方形,而是与原图同高宽比)。书中为了强制将其转换为正方形而* in_height / in_width。经过对比,生成的锚框是不一样的。

感谢,看了就你这个回答是最靠谱的!本身就是很简单才对 :laughing:

应该是按照原图的width和height对锚框做归一化,这样锚框的高宽输出是0~1。

最近一段时间colab出现d2l包安装不上的问题,希望能解决

这个有问题吧。
代码中的r’是锚框的宽高比也就是w’/h’。代码上面的公式w’=wssqrt(r)中的r是 锚框的宽高比除以原图的宽高比也就是 r = (w’/h’)/(w/h)
那么r = r’ / (w/h) = r’h/w。这个关系是没有错的。但是 r是在根号里的。
w’ = w* s* sqrt(r’h/w) 也就是最后乘以的应该是 sqrt(h/w)

我觉得乘以in_height/in_width并不是为了让w和h变成正方形,而是已经是正方形了为了维持原有图片的宽高比,in_height / in_width 以外的部分 其实是这样的:
w = s * sqrt(r)
h = s / sqrt(r)
和上面的公式相比
w = wssqrt(r)
h = h*s/sqrt(r)
各缺少了w和h 也就是说明 这个式子应该是归一化的式子。如果不加in_heigh/in_width,这个w和h就是归一化好的,也就是本来就是正方形。
乘以in_height/in_width才是为了让w和h位置原有的比例关系。
所以我觉得@echo233(锚框 - #8 by echo233 说的对。

但是如果将s视为缩放比,即锚框的h,w为原图h,w的s倍。r视为w/h的话。
如果按照书中a_w = hssqrt(r),a_h = hs/sqrt(r)这样计算的话。a_w * a_h = hhss了

image
就是按照这个公式来只不过对宽高做了归一化。宽度再除以一个w,高度再除以一个h

关于w 到底是 h·s·sqrt(r) 还是 w·s·sqrt(r) 中文版公式定义里已经修改了吧,有趣的是英文版的本来也一样修改为了h·s·sqrt(r) ,今年七月又被改回去了w·s·sqrt(r)。

  • in_height / in_width是需要的,因为 s 是宽、高的等比例缩放,如果图像的宽和高相等时,那么in_height / in_width=1,可以去掉,如果图像是长方形,那么宽和高的缩放比例会不一致,导致anchor在r=1时也是长方形,无法生成正方形的anchor。所以宽度的缩放比例由s改为s*H/W, 高度的缩放比例仍是s。

感覺是讓它置換成背景的概率(20字20字)