[从零开始]使用ImageNet数据集实验

本文主要是介绍[从零开始]使用ImageNet数据集实验，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

记录一下最近开始的ImageNet学习，论文中虽然提到了很多，也开源了训练代码，但是多数情况用自己的代码在相同的Condition就是难以复现，记录一点点目前的。

ImageNet，yyds

数据

数据下载源于官网 http://image-net.org/download，需要注册edu邮箱，一些参考：
下载imagenet2012数据集，以及label说明

下载下来的标签有不对应的情况，参考网上说的重新下一份caffe版本的，地址如下

caffe_ilsvrc12.tar.gz http://dl.caffe.berkeleyvision.org/

数据解压，python版本和shell版本

import osn = 0
unzip = os.listdir('./images')
print(len(unzip))
for i in os.listdir('./tars'):if('.tar' in i):if(i[:-4] in unzip):continuepath = os.path.join(os.getcwd(), 'images', i[:-4])tar = os.path.join(os.getcwd(), 'tars', i)os.system('mkdir {}'.format(path))os.system('tar -xvf {} -C {}'.format(tar, path))print(path)n += 1
print(n)

base=/path/to/data
for i in `ls *.tar`
dopath=$base${i%.tar}mkdir $pathtar -xvf $i -C $pathecho $path
done

训练

ImageNet的准确率在不同的训练策略下结果差异还是挺大的，参考了几篇论文的训练策略尝试复现结果。
部分训练代码已开源@git。

以下准确率是基于验证集(Validation Set)的结果

1. 训练环境

GPU: 32GB Tesla V100 * 4
Lib: pytorch 1.6

2. Table

一些固定setting，没有特殊说明则follow以下:

数据预处理，采用的albumentation库

import albumentations as A
from albumentations.pytorch import ToTensorV2
# train
A.Compose([A.RandomResizedCrop(height=224, width=224),A.HorizontalFlip(p=0.5),A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),ToTensorV2()])
# val
A.Compose([A.Resize(height=256, width=256),A.CenterCrop(height=224, width=224),A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),ToTensorV2()])

采用的主干模型为Resnet50，由于采用了batch_size=256，没有使用sync_bn，pytorch1.6提供了混合精度训练(AMP)，几行代码就能转换，极大节省了显存和训练时间。

# 一些固定setting
batch_size: 256
init_lr: 0.1
schedule: cos
warm_up: 10
total_epoch: 120
optimizer: SGD
weight_decay: 5e-4
momentum: 0.9
model: resnet50
sync_bn: False
amp: True

2.1 混合精度训练(AMP)

首先比较了混合精度训练，发现差异不大所以后面就用AMP来节约时间，用了sync_bn

假装有个Table~~结果被删掉了，找不到了，但是精度差不多~~

2.2 Sync_BN

比较了一下sync_bn的影响，顺便跑了LabelSmoothing

Loss	Schedule	sync_bn	best_acc	best_epoch	total_epoch	time_per_epoch
CE	cos, warm 10	w	76.04	120	120	~720s
CE	cos, warm 10	wo	76.22	120	120	~540s
LS(0.1)	cos, warm 10	wo	76.35	120	120	/
LS(0.2)	cos, warm 10	wo	76.45	120	120	/

2.3 数据增强

因为有一篇论文提到了ColorJitter(CJ)，故比较了一下使用增强的效果。

# 在train中加入
A.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0, always_apply=False, p=0.5)

提升没有很明显。~~(那篇论文里的Baseline有77.5)~~

Loss	Schedule	CJ	best_acc	best_epoch	total_epoch	time_per_epoch
CE	cos, warm 10	w	76.14	120	120	~550s

2.4 更长时间的训练

大多数的训练策略都是以100~120epoch来训练ImageNet，但是从前面的结果来看全都是在最后一轮取得的最佳准确率，这与cos学习率衰减也有一定关系，学习率总是在最后几轮降低很快，准确率也主要在最后几轮提升。那么采用更多轮次的训练是否会有所提升。以下比较了300epoch和250epoch不同的训练策略。

Loss	Schedule	best_acc	best_epoch	total_epoch
CE	cos, warm 5	76.79	299	300
CE	step [75, 150, 225]	76.01	248	250

2.5 Debug

batch_size和weight_decay调整
前面说batch_size 256实际上是单卡256，而用了4张卡，因此实际上的batch_size计算应该为4 * 256，因此重新用了单卡batch_size 256来训练，时间从2天变成了5天，跑了250epoch，另外weight_decay 从5e-4变成了1e-4，结果上来看相比前面的有一点提升，但是具体是因为batch_size的变化还是weight_decay也不好说明，从跑的另一个实验来说提升是很明显的。单卡训练也避免了sync_bn的问题。结果基本与目前的论文结果能对应上。

Loss	Schedule	best_acc	best_epoch	total_epoch
CE	step [75, 150, 225]	76.32	161	250

Conclusion

以上尝试了几种ImageNet的训练策略，参考了一些论文的Setting，Baseline结果与大多数的论文的Baseline差不多(76.3)。但是从2.4可以看出不同的策略下结果差异很大，由于硬件条件有限，没有尝试的bags of tricks。训练次数小的时候(epoch in [90, 120])，似乎采用step衰减更有效。更长的时间cos衰减可能收敛效果更好。没有得到理想的结果，慢慢踩坑。

实验并不充分，还有一些问题需要解决，等有新的再补充。

Continue…

Code：https://github.com/Kurumi233/OnlineLabelSmoothing

这篇关于[从零开始]使用ImageNet数据集实验的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！