SSD目标检测lmdb数据结构剖析

2024-04-20 01:32

本文主要是介绍SSD目标检测lmdb数据结构剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SSD读取训练集是从LMDB中读取AnnotatedDatum结构的数据,在训练和测试之前,要将图片(img)和XML(label)数据存储为AnnotatedDatum结构,然后将数据经过序列化,存入到LMDB数据库中。训练和测试的时候直接从LMDB读取数据,经过反序列化获取AnnotatedDatum结构的数据,获得训练集的图片和XML数据。

可以参考ssd caffe目录包下的src/caffe/util/io.cpp, tools/convert_annoset.cpp,会对你理解数据结构有很大的作用。

也是C++ 强大的动态内存管理推波助澜。

AnnotatedData数据结构

message AnnotatedDataParameter {
  // Define the sampler.
  repeated BatchSampler batch_sampler = 1;
  // Store label name and label id in LabelMap format.
  optional string label_map_file = 2;
  // If provided, it will replace the AnnotationType stored in each
  // AnnotatedDatum.
  optional AnnotatedDatum.AnnotationType anno_type = 3;

}


一、LMDB数据库

  • LMDB的全称是Lightning Memory-Mapped
    Database,意为闪电般的内存映射数据库。它文件结构简单,一个文件夹,里面一个数据文件data.mdb,一个锁文件lock.mdb。数据随意复制,随意传输。它的访问简单,不需要运行单独的数据库管理进程,只要在访问数据的代码里引用LMDB库,访问时给文件路径即可。
  • Caffe引入数据库存放数据集,是为了减少IO开销。LMDB的整个数据库放在一个文件里,避免了文件系统寻址的开销。LMDB使用内存映射的方式访问文件,使得文件内寻址的开销非常小,使用指针运算就能实现。数据库单文件还能减少数据集复制/传输过程的开销。一个几万,几十万文件的数据集,不管是直接复制,还是打包再解包,过程都无比漫长而痛苦。LMDB数据库只有一个文件,传输介质有多块,就能复制多快,不会因为文件多而变得很慢。

    这里写图片描述


二、AnnotatedDatum数据结构

 以PASCAL VOC数据集为例,label为$CAFFE_ROOT/data/VOCdevkit/VOC2007/Annotations下的XML文件,图片为$CAFFE_ROOT/data/VOCdevkit/VOC2007/JPEGImages下的图片文件。

    这里写图片描述

  • SSD读取数据,要将label和图片封装到一个数据结构下,用的是AnnotatedDatum结构,定义如下:
// An extension of Datum which contains "rich" annotations.
message AnnotatedDatum {enum AnnotationType {BBOX = 0;}optional Datum datum = 1;// If there are "rich" annotations, specify the type of annotation.// Currently it only supports bounding box.// If there are no "rich" annotations, use label in datum instead.optional AnnotationType type = 2;// Each group contains annotation for a particular class.repeated AnnotationGroup annotation_group = 3;
}
  • AnnotatedDatum结构里面包含AnnotationGroup结构、Datum结构和AnnotationType。Datum结构用于存放图片信息,后面会说到;使用$CAFFE_ROOT/src/caffe/util/io.cpp里面定义的ReadXMLToAnnotatedDatum函数将XML文件信息存储到AnnotationGroup结构中,AnnotationGroup结构定义如下:
// Group of annotations for a particular label.
message AnnotationGroup {optional int32 group_label = 1;repeated Annotation annotation = 2;
}
  • AnnotationGroup结构包含group_label和Annotation结构,group_label根据$CAFFE_ROOT/data/VOC0712/labelmap_voc.prototxt进行转换,将object的name改为数字,Annotation结构定义如下:
// Annotation for each object instance.
message Annotation {optional int32 instance_id = 1 [default = 0];optional NormalizedBBox bbox = 2;
}
  • Annotation结构包含instance_id和NormalizedBBox结构,NormalizedBBox即为XML文件每个object里面bbox的四个坐标点(xmin,ymin,xmax,ymax)。

  这样XML文件的内容就存到了AnnotatedDatum结构里面。
  (以上结构的定义文件都存储在$CAFFE_ROOT/src/caffe/proto/caffe.proto中)


三、Datum数据结构

 AnnotatedDatum类里面包括Datum结构,用来存放图片数据。

  • Datum的定义:
message Datum {optional int32 channels = 1;optional int32 height = 2;optional int32 width = 3;// the actual image data, in bytesoptional bytes data = 4;optional int32 label = 5;// Optionally, the datum could also hold float data.repeated float float_data = 6;// If true data contains an encoded image that need to be decodedoptional bool encoded = 7 [default = false];
}

    channels、height和width为Datum数据的三个维度。byte_data和float_data是存放数据的地方,分别存放整数型和浮点型数据。图像数据一般是整形,放在byte_data里,特征向量一般是浮点型,放在float_data里。label存放数据的类别标签,是整数型。encoded标识数据是否需要被解码(里面有可能放的是JPEG或者PNG之类经过编码的数据)。

  • 使用$CAFFE_ROOT/src/caffe/util/io.cpp里面定义的ReadImageToDatum函数将图片数据存储到Datum结构中。先用OpenCV将图片读取为矩阵形式,获取图片的三维数据,将这些数据存储到Datum结构中。相关代码如下:
bool ReadImageToDatum(const string& filename, const int label,const int height, const int width, const int min_dim, const int max_dim,const bool is_color, const std::string & encoding, Datum* datum) {cv::Mat cv_img = ReadImageToCVMat(filename, height, width, min_dim, max_dim,is_color);if (cv_img.data) {if (encoding.size()) {if ( (cv_img.channels() == 3) == is_color && !height && !width &&!min_dim && !max_dim && matchExt(filename, encoding) ) {datum->set_channels(cv_img.channels());datum->set_height(cv_img.rows);datum->set_width(cv_img.cols);return ReadFileToDatum(filename, label, datum);}EncodeCVMatToDatum(cv_img, encoding, datum);datum->set_label(label);return true;}CVMatToDatum(cv_img, datum);datum->set_label(label);return true;} else {return false;}
}

四、Python读取LMDB

 为了加深理解,我用python写了一个读取LMDB数据的脚本,将存储在LMDB中的AnnotatedDatum结构中的图片和XML文件读取出来,获取object的name即label,并将图片用OpenCV显示,代码如下:

# -*- coding: utf-8 -*
import caffe
import lmdb
import numpy as np
import cv2
from caffe.proto import caffe_pb2lmdb_env = lmdb.open('/home/computer/wcaffe_test/examples/VOC0712/VOC0712_test_lmdb')lmdb_txn = lmdb_env.begin()                                 # 生成处理句柄
lmdb_cursor = lmdb_txn.cursor()                             # 生成迭代器指针
annotated_datum = caffe_pb2.AnnotatedDatum()                # AnnotatedDatum结构for key, value in lmdb_cursor:print keyannotated_datum.ParseFromString(value)datum = annotated_datum.datum                           # Datum结构grps = annotated_datum.annotation_group                 # AnnotationGroup结构type = annotated_datum.typefor grp in grps:xmin = grp.annotation[0].bbox.xmin * datum.width           # Annotation结构ymin = grp.annotation[0].bbox.ymin * datum.heightxmax = grp.annotation[0].bbox.xmax * datum.widthymax = grp.annotation[0].bbox.ymax * datum.heightprint "label:", grp.group_label                            # object的name标签print "bbox:", xmin, ymin, xmax, ymax                      # object的bbox标签label = datum.label                                      # Datum结构label以及三个维度   channels = datum.channelsheight = datum.heightwidth = datum.widthprint "label:", labelprint "channels:", channelsprint "height:", heightprint "width:", widthimage_x = np.fromstring(datum.data, dtype=np.uint8)      # 字符串转换为矩阵image = cv2.imdecode(image_x, -1)                        # decodecv2.imshow("image", image)                               # 显示图片if cv2.waitKey(1) & 0xFF == ord('q'):break

这篇关于SSD目标检测lmdb数据结构剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/918960

相关文章

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一:使用 stat() 函数(推荐)✅ 用法示例:✅ 方法二:使用 fsee

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学