DataFountain训练赛汇总，成长在于不断学习

本文主要是介绍DataFountain训练赛汇总，成长在于不断学习，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

赛题介绍

image

赛题名：室内用户运动时序数据分类

赛道：训练赛道

背景：随着数据量的不断积累，海量时序信息的处理需求日益凸显。作为时间序列数据分析中的重要任务之一，时间序列分类应用广泛且多样。时间序列分类旨在赋予序列某个离散标记。传统特征提取算法使用时间序列中的统计信息作为分类的依据。近年来，基于深度学习的时序分类取得了较大进展。基于端到端的特征提取方式，深度学习可以避免繁琐的人工特征设计。如何对时间序列中进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的序列归属到同一个集合，对于学术研究及工业应用具有重要意义。

任务：基于上述实际需求以及深度学习的进展，本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型，希望大家探索更为鲁棒的时序特征表述方法。

数据简介

基于上述实际需求以及深度学习的进展，本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型，希望大家探索更为鲁棒的时序特征表述方法。

数据说明

数据整理自网上公开数据集UCI(已脱敏)，数据集涵盖2类不同时间序列，该类数据集广泛应用于时序分类的业务场景。

文件类别	文件名	文件内容
训练集	train.csv	训练数据集标签文件，标签CLASS
测试集	test.csv	测试数据集标签文件，无标签
字段说明	字段说明.xlsx	训练集/测试集XXX个字段的具体说明
提交样例	Ssample_submission.csv	仅有两个字段ID\CLASS

字段说明

名称	标签
ID	时间序列标识号
T0	T0时刻特征
T1	T1时刻特征
…	…
T239	T239时刻特征
CLASS	时间序列类别标记

提交示例

建议提交方式：
参赛者以csv文件格式提交，提交模型结果到大数据竞赛平台，平台进行在线评分，实时排名。目前平台仅支持单文件提交，即所有提交内容需要放在一个文件中；submission.csv文件字段如下：

ID	CLASS
210	0
211	1
…	…

评测标准

1、准确率(Accuracy)：对于给定的测试数据集，预测正确的样本数与实际总样本数之比
2、True，表示预测正确的样本数数量
3、Total Number of Samples，表示实际总样本数数量
计算公式如下：

image

赛题介绍

image

赛题名：野外环境中的蝴蝶自动识别

赛道：训练赛道

背景：昆虫是人类已知的生物类群中数量最庞大的分支之一，对该类群实现分类、鉴定是一项非常复杂的任务，也是昆虫研究领域亟需解决的重要问题。蝴蝶作为最常见的昆虫，凭借其美丽的外观吸引着众多昆虫爱好者以及昆虫学家去观赏与研究，并且蝴蝶作为宝贵的环境指标，地位独特，既能对气候和栖息地等环境变化做出快速反应，也是能反映一定区域内其他野生动植物的多样性。因此，野外环境中的蝴蝶识别与检测意义重大。
然而，蝴蝶种类繁多，全世界约有18000种，中国约有1700种。截至目前，蝴蝶种类识别依然依赖于昆虫分类学家根据蝴蝶翅膀背、腹面的花纹、颜色和图案特征所做的人工鉴定，这不仅需要昆虫学家长期的经验和知识积累，且费时费力，严重制约了蝴蝶作为环境指示昆虫的应用。另外，部分蝴蝶种类之间外观相似，难以区分。蝴蝶自身所具有的拟态性，使得蝴蝶很容易借助周围环境来隐藏自己，躲避天敌。野外环境中的蝴蝶，翅膀不一定展开，分类特征可能被遮挡。因此，野外环境中的蝴蝶识别与检测十分困难。
传统的蝴蝶种类识别方法就是人工鉴定，不仅耗时耗力，而且过于依赖有经验的昆虫学家，所以我们希望借助计算机视觉技术，通过人工智能技术对野外环境中的蝴蝶进行自动识别，从而帮助昆虫爱好者和昆虫学家以及一切从事相关研究的人员，能够快速准确地识别与检测野外环境中的蝴蝶。

任务：依据给定的蝴蝶在野外环境中的图像以及对应的标注文件，建立机器学习、深度学习模型来对图像中的蝴蝶进行目标检测。

数据简介

该数据集包含了第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛所使用的全部野外环境中拍摄的蝴蝶图像数据，共721张图像，94种蝴蝶，每一张图像对应一个标注文件，详细标注了蝴蝶的种类以及蝴蝶在图像中的矩形框坐标。

数据说明

用于竞赛的数据集应下载至datasets文件夹下，下载地址为http://www.sciencedb.cn/dataSet/handle/706，下载后应共有两个文件夹：Annotations和JPEGImages。其中Annotations为数据集的标注信息文件夹，包含每个训练图像对应的xml文件，内容格式可参考pascal voc 2007数据集中的标注文件格式，采用UTF-8无BOM编码格式；JPEGImages为训练的图像数据，其名称和Annotations文件夹中的名称一一对应。

提交要求

建议提交方式：
参赛者以json文件格式提交，提交模型结果到大数据竞赛平台，平台进行在线评分，实时排名。目前平台仅支持单任务单文件提交，由于该赛题任务为：自然环境中蝴蝶图像的目标检测，请参赛者提交检测结果submission.json。
submission.json为一个字典文件，键为类别索引【参考提交样例】，值为对应类别预测的结果列表，列表中每一个元素为单独一张图像的预测结果信息，每条信息包含的字段如下:

字段名	类型	取值范围	字段解释
image_name	String	-	文件名
confidence	float	[0.0,1.0]	分类置信度
x1	float	(-∞,+∞)	预测框左上横坐标
y1	float	(-∞,+∞)	预测框左上纵坐标
x2	float	(-∞,+∞)	预测框右下横坐标
y2	float	(-∞,+∞)	预测框右下纵坐标

【注】：x1, y1, x2, y2对应预测坐标在原图大小的坐标值，不能经过任何放缩或者变换，否则会造成最终评分异常。

提交示例

提交结果命名为submission.json，编码格式为UTF-8无BOM编码格式,且同一张图像数据可以有多条预测结果，即在对应类别列表中有多条image_name相同的预测信息。字段要求和内容格式见【提交要求】。具体示例：
{
‘0’:[
[ “IMG_000001”,0.55 ,1000,1000,2000,2000],
[ “IMG_000001”,0.55 ,1000,1000,2000,2000],
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],
…
],
‘1’:[
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000003”,0.65 ,1000,1000,2000,2000],
…
],
‘2’:[
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000003”,0.65 ,1000,1000,2000,2000],
…
],
…}

【评测标准】
评价标准：我们用目标检测问题中最常用的度量标准 – 平均精度均值(mean Average Precision, mAP)作为任务的评价指标(all-points-interpolation法)，结果采用以下计算规则：
1 根据ground truth 信息,统计每个类别所有预测实例，最终得到该类别的精确度(Percision)和召回率(Recall)列表,两者计算公式为：

image

2 设索引为i的类精确度为Pi,召回率为Ri,均为列表，Ri相邻两位(k和k-1位)的召回率差值为^rk，则索引为i的类的平均精度计算公式为：

image

3 计算mAP

image

赛题介绍

image

赛题名：电商用户购买行为预测

赛道：训练赛道

背景：互联网的出现和普及给用户带来了大量的信息，满足了用户在信息时代对信息的需求，但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息，导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息，需要依据真实的用户购买行为记录，利用机器学习相关技术建立稳健的电商用户购买行为预测模型，用于预测用户的下一个行为，以此为用户进行商品的推荐，准确捕获用户的购买兴趣，提高电商平台商品的购买率。

任务：依据电子商务平平台上真实的用户行为记录，利用机器学习相关技术，建立稳健的电商用户购买行为预测模型，预测用户下一个可能会购买的商品。

数据简介

数据整理自一家中等化妆品在线商店公布的网上公开数据集，为该化妆品商店真实的用户交易信息，数据集中每一行表示一个事件，所有的事件都与商品和用户相关，并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性，例如商品编号、商品类别、用户编号、事件时间等。

数据说明

数据文件夹包含3个文件，依次为：

文件类别	文件名	文件内容
训练集	train.csv	训练数据集，标签为每个用户序列的最后一个商品编号
测试集	test.csv	测试数据集
提交样例	submission.csv	仅有两个字段user_id\product_id

文件字段说明:

名称	标签
event_time	When event is was happened
event_type	Event type: one of [view, cart, remove_from_cart, purchase]
product_id	Product ID
category_id	Product category ID
category_code	Category meaningful name (if present)
brand	Brand name in lower case (if present)
price	Product price
user_id	Permanent user ID
user_session	User session ID

提交要求

字段名	类型	取值范围	字段解释
user_id	Int	-	用户ID
product_id	Int	-	商品ID

提交示例

示例如下：

user_id	product_id
53978	5651977
53980	5877766

评测标准

本赛题采用召回率和平均倒数排名两个指标进行评价：

image

其中，TP是真正类，FN是假负类。是商品在推荐列表中的排名Ranki

赛题介绍

image

赛题名：通用音频分类

赛道：训练赛道

背景：随着移动终端的广泛应用以及数据量的不断积累，海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体，音频信息处理应用广泛且多样，如自动语音识别、音乐风格识别等。有些声音是独特的，可以立即识别，例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂，很难区分。如果闭上眼睛，您能说出电锯和搅拌机是下面哪种声音？音频分类是音频信息处理领域的一个基本问题，从本质上说，音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来，基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式，深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合，对于学术研究及工业应用具有重要意义。

任务：基于上述实际需求以及深度学习的进展，本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型，希望大家探索更为鲁棒的音频表述方法，以及转移学习、自监督学习等方法在音频分类中的应用。

数据简介

数据整理自网上公开数据集(已脱敏)，数据集涵盖5类不同音频，该类数据集广泛应用于音频分类的业务场景。

数据说明

数据文件夹包含6个文件，依次为：

文件类别	文件名	文件内容
训练集音频文件夹	train	训练数据集音频文件
测试集音频文件夹	test	测试数据集音频文件
字段说明	字段说明.xlsx	训练集/测试集字段的具体说明
提交样例	submission.csv	仅有两个字段file_name\label

提交示例

file_name	label
478bndrgbs.wav	bed
cxdlny4rd1.wav	bed
…	…

评测标准

1、准确率(Accuracy)：对于给定的测试数据集，预测正确的样本数与实际总样本数之比
2、True，表示预测正确的样本数数量
3、Total Number of Samples，表示实际总样本数数量
4、计算公式如下：

image

赛题介绍

image

赛题名：漫画照片人脸识别竞赛

赛道：训练赛道

背景：计算机视觉研究领域对漫画的识别和生成越来越感兴趣。漫画识别的研究目的是研究计算机是否能从特定的照片中识别出漫画。近年来，这方面的研究越来越多，其主要原因之一是可以帮助理解人类如何识别脸，并且缩小人类感知和机器识别脸之间的差距。另一个主要原因则是有了更好的漫画识别机制，可以在保留内在身份的同时合成更好的漫画。过去的研究表明，对人类对照片人脸和漫画人脸的感知的研究可能有助于理解人类大脑是如何表征和编码面孔的。

任务：通过部分人物的漫画数据和照片数据，对漫画与照片之间的对映射关系进行建模，通过机器学习等相关技术，建立准确的漫画-照片人脸识别模型，判断漫画和照片身份之间的对应关系。

数据简介

数据来源于WebCaricature数据集，原数据集共包括属于252个人物的6042幅漫画和5974张照片。同时由于所有的漫画图片均来自网络爬虫爬取，因此数据集中的漫画的艺术风格是多种多样。此外，该数据集中也并不对光照条件、姿态、表情、遮挡和年龄等信息进行约束。训练赛道给出的数据是预处理裁剪好的部分数据，不需要再进行人脸检测和对齐，完整数据可从https://cs.nju.edu.cn/rl/WebCaricature.htm申请获取。

WebCaricature/train	训练集图片文件夹，子目录文件夹对应人物(以人物姓名命名)，人物姓名文件夹下存放该人物对应的图片，其中P开头表示照片，C开头表示漫画
WebCaricature/test	测试集图片文件夹
WebCaricature/protocols/ FR_Train_dev.txt	训练数据，每行分别表示人物身份，漫画数量以及照片数量
WebCaricature/protocols/C2P	FR_Gallery_C2P.txt，C2P设置下的Gallery数据集(由照片构成)，FR_Probe_C2P.txt，C2P设置下的Probe数据集(由漫画构成)。
WebCaricature/protocols/P2C	FR_Gallery_P2C.txt，P2C设置下的Gallery数据集(由漫画构成)，FR_Probe_P2C.txt，P2C设置下的Probe数据集(由照片构成)。

评测标准

参赛队员的算法需要计算找出与Probe中的图片人物身份相同的Gallery图片，返回该图片的名称作为Probe图片的匹配结果，赛方计算Rank-1准确率。

image

其中，Pi为第i个Probe图片的人物ID，Gi1为算法找出的第i个Probe图片的最相似人物ID。

赛题介绍

[图片上传中...(image-76ecf5-1608987982698-4)]

赛题名：真实场景下的水表读数自动识别

赛道：训练赛道

背景：当前，尽管智能水表正在取代老式的机械水表，但在许多地区，由于环境、成本等因素的限制，机械水表无法被替换，仍就需要人工手动进行抄表。为了实现对老式机械水表的自动识别，本次大赛开展了真实场景下的水表读数自动识别竞赛。

任务：本次大赛要求参赛者使用机器学习、深度学习或者光学字符识别等技术来实现对老式机械水表读数区域的自动识别，任务如图1所示：

image

本次大赛的难点主要在两个方面：1、水表读数区域(图1中的“00095/00095”区域)的准确估计；2、对估计出的读数区域中数字的准确识别。

数据说明

文件名称	说明
train_imgs.zip	训练集图片，里面包含1000张水表图片
train_labels.zip	训练集对应的标注答案结果，具体描述见本表后面文字
test_imgs.zip	测试集图片，里面包含500张待识别水表图片
submit_example.csv	提交样例，参赛者根据此格式进行提交

训练集结果文件说明：