YOLOv3实践darknet跑voc数据集的问题

本文主要是介绍YOLOv3实践darknet跑voc数据集的问题，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近在用YOLOv3的darknet训练VOC数据集，初学小白的我对参数，源码还在了解层面，但是结果已经训练开始之后发现IoU出现了nan值循环。所以就开始网上寻找。总结在下：

参考：https://blog.csdn.net/lilai619/article/details/79695109#commentsedit

如何训练自己的数据

说明：

（1）平台 linux + 作者官方代码【训练指令请参考官网教程：https://pjreddie.com/darknet/yolo】
迭代：900 次
速度：稍微慢于v2
测试：记得更改cfg文件

训练自己的数据主要分以下几步：

（0）数据集制作：

A.制作VOC格式的xml文件

工具：LabelImg

B.将VOC格式的xml文件转换成YOLO格式的txt文件

脚本：voc_label.py，根据自己的数据集修改就行了。

（1）文件修改：

（A）关于 .data .names 两个文件修改非常简单，参考官网ＹＯＬＯv3.txt连接中的文件。

（B）关于cfg修改，voc数据集是20类，coco是80类。#表示注释，根据训练和测试，自行修改。

[net]
#Testing
#batch=1
#subdivisions=1
#Training
batch=60###64 这里是我自己修改的，最好还是2的幂次方！

subdivisions=20###8

…

[convolutional]
size=1
stride=1
pad=1
filters=33###75

activation=linear

[yolo]
mask = 6,7,8
anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
classes=6###20
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=0###1

…

[convolutional]
size=1
stride=1
pad=1
filters=33###75
activation=linear

[yolo]
mask = 3,4,5
anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
classes=6###20
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=0###1

…

[convolutional]
size=1
stride=1
pad=1
filters=33###75
activation=linear

[yolo]
mask = 0,1,2
anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
classes=6###20
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=0###1

A.filters数目是怎么计算的：3x(classes数目+5)，和聚类数目分布有关，论文中有说明；
B.如果想修改默认anchors数值，使用k-means即可；
C.如果显存很小，将random设置为0，即关闭多尺度训练；

Region xx: cfg文件中yolo-layer的索引；

Avg IOU: 当前迭代中，预测的box与标注的box的平均交并比，越大越好，期望数值为1；

Class: 标注物体的分类准确率，越大越好，期望数值为1；

obj: 越大越好，期望数值为1；

No obj: 越小越好；

.5R: 以IOU=0.5为阈值时候的recall; recall = 检出的正样本/实际的正样本

0.75R: 以IOU=0.75为阈值时候的recall;

count: 正样本数目。

训练问题详解

在这里插入图片描述

Tips0: 数据集问题

如果是学习如何训练，建议不要用VOC或者COCO,这两个数据集复杂，类别较多，复现作者的效果需要一定的功力，迭代差不多5w次，就可以看到初步的效果。所以，不如挑个简单数据集的或者手动标注个几百张就可以进行训练学习。（我也是醉了，早知道就不用1070来练5w多次了。。。）

Tips1: CUDA: out of memory 以及 resizing 问题

显存不够，调小batch，关闭多尺度训练：random = 0。

Tips2: 在迭代前期，loss很大，正常吗？

经过几个数据集的测试，前期loss偏大是正常的，后面就很快收敛了。

Tips3: YOLOV3中的mask作用？

参考#558 #567

Every layer has to know about all of the anchor boxes but is only predicting some subset of them. This could probably be named something better but the mask tells the layer which of the bounding boxes it is responsible for predicting. The first yolo layer predicts 6,7,8 because those are the largest boxes and it’s at the coarsest scale. The 2nd yolo layer predicts some smallers ones, etc.

The layer assumes if it isn’t passed a mask that it is responsible for all the bounding boxes, hence the ifstatement thing.

Tips4: YOLOV3中的num作用？

#参考567

num is 9 but each yolo layer is only actually looking at 3 (that’s what the mask thing does). so it’s (20+1+4)*3 = 75. If you use a different number of anchors you have to figure out which layer you want to predict which anchors and the number of filters will depend on that distribution.

according to paper, each yolo (detection) layer get 3 anchors with associated with its size, mask is selected anchor indices.

Tips5: YOLOV3训练出现nan的问题？

参考#566

You must be training on a lot of small objects! nan’s appear when there are no objects in a batch of images since i definitely divide by zero. For example, Avg IOU is the sum of IOUs for all objects at that level / # of objects, if that is zero you get nan. I could probably change this so it just does a check for zero 1st, just wasn’t a priority.

所以在显存允许的情况下，可适当增加batch大小，可以一定程度上减少NAN的出现。

Tips6: YOLOv3打印的参数都是什么含义？

详见yolo_layer.c文件的forward_yolo_layer函数。

printf(“Region %d Avg IOU: %f, Class: %f, Obj: %f, No Obj: %f, .5R:
%f, .75R: %f, count: %d\n”, net.index, avg_iou/count,
avg_cat/class_count, avg_obj/count, avg_anyobj/(l.wl.hl.n*l.batch),
recall/count, recall75/count, count);

刚开始迭代，由于没有预测出相应的目标，所以查全率较低【.5R 0.75R】，会出现大面积为0的情况，这个是正常的。