目标检测数据集

https://zh-v2.d2l.ai/chapter_computer-vision/object-detection-dataset.html

torch.Size([32, 3, 256, 256]), torch.Size([32, 1, 5])),请问3指什么,32是batch_size,256 ,256 is 长和宽吗? 后面为何又有一个torch.Size,32,1,5 有何含义? 不是很明白!imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255, permute是否是变为32,256,256,3,前面的batch[0]是第一个batch,[0:10]是10张图片吗?/255 是标准化对吗,即32/255,256/255,256/255, 3/255,houmian的torch.size(32,1,5)也要标准化吗? 请回答一下!xiexie

后面的batch[1],前面的为batch[0],这是为何,是指不同的batch吗? imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255
axes = d2l.show_images(imgs, 2, 5, scale=2)
for ax, label in zip(axes, batch[1][0:10]):
d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=[‘w’])

module ‘torchvision.io’ has no attribute ‘read_image’ 有大佬出过这个问题吗

module ‘torchvision’ has no attribute ‘io’ 有遇到这个问题的吗?

版本问题,已解决,用conda安装即可解决

3指的是输入图片的通道数
256是指长和宽
后面的32,1,5分别是指batchsize,这个1按照上面写的应该是预设的m=1,从而构成整齐的tensor。5是指(类别数+矩形框的四个属性)
permute就是你说的意思,修改了轴的顺序之后在bath_size轴上选取前十个图片
/255就是标准化
(32,1,5)对应的是标签,所以不用标准化

不是对应不同的batch,是一个batch里面的图像和标签。你可以搜索一下torch.utils.data.DataLoader(),单线程加载数据的时候这个函数返回的是一个可迭代对象,里面就是batches,每个batch长度为2,其中第一个也就是batch[0]对应的是32张图片数据,batch[1]对应的是32个标签