单发多框检测（SSD）

goldpiggy · June 6, 2021, 5:49pm

https://zh-v2.d2l.ai/chapter_computer-vision/ssd.html

YANGJUNYAN0715 · May 15, 2022, 11:12am

RuntimeError: [Errno 2] No such file or directory: ‘…/img/banana.jpg’,大家有遇到过这种错误吗

Phoenix-Shen · May 23, 2022, 9:46am

你电脑上是没有这个banana.jpg的，我们可以从数据集中随便选一张测试集的图片作为样本。

譬如:

X = tv.io.read_image("../dataset/banana-detection/bananas_val/images/10.png").unsqueeze(0).float()

HeartSea15 · May 26, 2022, 8:43am

有人能讲解一下吗，谢谢？

xingjianzhi · June 1, 2022, 10:08am

cdn出了问题，js加载不出来，建议用加速器加速一下(挂梯子)。

zgpeace · June 22, 2022, 11:24pm

图片要自己上传，在代码 d2l里面可以获取

放了原图，方便大家获取
banana
codelab 运行结果

Shen_Hua · September 26, 2022, 9:14am

不知道为何没有Tensorflow版本的，自己实现了一个：

Kuluuu · October 7, 2022, 5:59am

感受野的计算公式：

参考：CNN感受野最全计算公式_骚年，你渴望力量嘛？的博客-CSDN博客_感受野计算

chan · October 16, 2022, 3:10am

本人用的是mac M1，分别在device='cpu’和device='mps’上训练了两个TinySSD模型（除了device参数不一样，其他都相同）。用课程中的banana.jpg测试模型得出cpu上的模型能正常识别锚框中的香蕉类，而mps模型则全识别为背景类，这是何原因？

Clay · November 21, 2022, 5:23am

请问为什么zheyn这样取锚框大小？

XiShuFan · December 28, 2022, 5:19am

我觉得是调参调出来的，这样设置检测的效果最好。

我自己也试过不同的锚框大小，结果很差。通过debug发现，如果锚框大小和真实的bbox相差较大，那么在锚框和bbox对应的函数（assign_anchor_to_bbox）中，只有一个anchor能被分配给bbox（在本案例中，一张图片里面只有一个香蕉bbox），导致正负样本差距特别大（我的情况是1：5444）。这会导致所有的anchor都被分类为背景，进而导致anchor的偏移值收敛效果不好。

如果就按照教程来设置anchor大小，那么正负样本的比例就可以达到32：5444左右，结果也就正常了。

protectorjy · July 17, 2023, 5:03am

练习1：为什么我使用了L1平滑损失预测效果更差了呢，有哪位大佬能帮我看一下我写的函数那个地方错了，还是说使用L1平滑损失有什么说法吗？
微信截图_20230717130229

san_zhang · July 26, 2023, 12:12pm

如果在测试代码的过程中，提示 tensor 分布在两个设备上的提示错误，可以按照下面的方式来进行纠正。

# model training 
num_epochs , timer= 20, d2l.Timer()
animator = d2l.Animator(xlabel = 'epoch' ,xlim = [1,num_epochs],
                       legend =['classes error','bbox mae'])
net = net.to(device)
for epoch in range(num_epochs):
    metric = d2l.Accumulator(4)
    net.train()
    for features ,target in train_iter :
        timer.start()
        trainer.zero_grad()
        X, Y = features.to(device), target.to(device)
#         X ,Y = features, target
        anchors,cls_pred , bbox_preds = net(X)
        #
        bbox_labels,bbox_masks,cls_labels = d2l.multibox_target(anchors,Y)
        # 
        bbox_labels, bbox_masks,cls_labels = bbox_labels.to(device),bbox_masks.to(device),cls_labels.to(device )
        cls_preds = cls_pred.to(device)
        l = calc_loss(cls_preds, cls_labels,bbox_preds ,bbox_labels,
                     bbox_masks)
#         l.to(device)
        l.mean().backward()
        trainer.step()
        metric.add(cls_eval(cls_preds, cls_labels),cls_labels.numel(),
                  bbox_eval(bbox_preds,bbox_labels,bbox_masks),
                  bbox_labels.numel())
    cls_err,bbox_mae = 1 - metric[0] / metric[1] ,metric[2]/metric[3]
    animator.add(epoch + 1 , (cls_err , bbox_mae))
print(f'class err { cls_err :.2e}, bbox_mae {bbox_mae:.2e}')
print(f'{len(train_iter.dataset)/ time.stop():.1f} examples/sec on ',f'{str(device)}')

san_zhang · July 26, 2023, 12:13pm

修改的地方主要是把在计算损失的时候，把对应的数据移动到了cuda 上进行操作

_CLN · August 14, 2023, 12:19pm

这里使用d2l.load_data_bananas加载的数据是不是没归一化啊

Lingfeng_Ren · August 21, 2023, 4:22pm

mps最后误差会很大，所以识别不好，我也是这样，估计是mps里的数位不同导致精度的问题吗？我看是long()那里

BugMaker2002 · November 25, 2023, 3:01am

batch_size = 32
train_iter, _ = d2l.load_data_bananas(batch_size)这一步报错BadZipFile: File is not a zip file怎么办啊

Quasicrystal610 · April 7, 2024, 6:50am

有人尝试过将高宽减半块换为带残差的高宽减半吗？我将之前残差单元根据这个高宽减半块改了填充和步幅还有核大小，但是输出结果的bboxmae一开始就是一个接近0的值并且几乎不变

Zheng_Yuxin · October 12, 2024, 7:22am

为啥pycharm运行出来的图是这样的？

Alane_Goldthwaite · October 21, 2024, 3:27pm

你把模型的参数保存下来，然后在一个新的文件中加载模型然后预测，就能正常显示预测结果了。我的刚开始也是什么也没显示