DataFountain训练赛汇总,成长在于不断学习

2023-10-14 02:10

本文主要是介绍DataFountain训练赛汇总,成长在于不断学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

赛题介绍
image

赛题名:室内用户运动时序数据分类

赛道:训练赛道

背景:随着数据量的不断积累,海量时序信息的处理需求日益凸显。作为时间序列数据分析中的重要任务之一,时间序列分类应用广泛且多样。时间序列分类旨在赋予序列某个离散标记。传统特征提取算法使用时间序列中的统计信息作为分类的依据。近年来,基于深度学习的时序分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。如何对时间序列中进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的序列归属到同一个集合,对于学术研究及工业应用具有重要意义。

任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家探索更为鲁棒的时序特征表述方法。

数据简介

基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家探索更为鲁棒的时序特征表述方法。

数据说明

数据整理自网上公开数据集UCI(已脱敏),数据集涵盖2类不同时间序列,该类数据集广泛应用于时序分类的业务场景。

文件类别文件名文件内容
训练集train.csv训练数据集标签文件,标签CLASS
测试集test.csv测试数据集标签文件,无标签
字段说明字段说明.xlsx训练集/测试集XXX个字段的具体说明
提交样例Ssample_submission.csv仅有两个字段ID\CLASS
字段说明
名称标签
ID时间序列标识号
T0T0时刻特征
T1T1时刻特征
T239T239时刻特征
CLASS时间序列类别标记
提交示例

建议提交方式:
参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:

IDCLASS
2100
2111
评测标准

1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
2、True,表示预测正确的样本数数量
3、Total Number of Samples,表示实际总样本数数量
计算公式如下:

image
赛题介绍
image

赛题名:野外环境中的蝴蝶自动识别

赛道:训练赛道

背景:昆虫是人类已知的生物类群中数量最庞大的分支之一,对该类群实现分类、鉴定是一项非常复杂的任务,也是昆虫研究领域亟需解决的重要问题。蝴蝶作为最常见的昆虫,凭借其美丽的外观吸引着众多昆虫爱好者以及昆虫学家去观赏与研究,并且蝴蝶作为宝贵的环境指标,地位独特,既能对气候和栖息地等环境变化做出快速反应,也是能反映一定区域内其他野生动植物的多样性。因此,野外环境中的蝴蝶识别与检测意义重大。
然而,蝴蝶种类繁多,全世界约有18000种,中国约有1700种。截至目前,蝴蝶种类识别依然依赖于昆虫分类学家根据蝴蝶翅膀背、腹面的花纹、颜色和图案特征所做的人工鉴定,这不仅需要昆虫学家长期的经验和知识积累,且费时费力,严重制约了蝴蝶作为环境指示昆虫的应用。另外,部分蝴蝶种类之间外观相似,难以区分。蝴蝶自身所具有的拟态性,使得蝴蝶很容易借助周围环境来隐藏自己,躲避天敌。野外环境中的蝴蝶,翅膀不一定展开,分类特征可能被遮挡。因此,野外环境中的蝴蝶识别与检测十分困难。
传统的蝴蝶种类识别方法就是人工鉴定,不仅耗时耗力,而且过于依赖有经验的昆虫学家,所以我们希望借助计算机视觉技术,通过人工智能技术对野外环境中的蝴蝶进行自动识别,从而帮助昆虫爱好者和昆虫学家以及一切从事相关研究的人员,能够快速准确地识别与检测野外环境中的蝴蝶。

任务:依据给定的蝴蝶在野外环境中的图像以及对应的标注文件,建立机器学习、深度学习模型来对图像中的蝴蝶进行目标检测。

数据简介

该数据集包含了第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛所使用的全部野外环境中拍摄的蝴蝶图像数据,共721张图像,94种蝴蝶,每一张图像对应一个标注文件,详细标注了蝴蝶的种类以及蝴蝶在图像中的矩形框坐标。

数据说明

用于竞赛的数据集应下载至datasets文件夹下,下载地址为http://www.sciencedb.cn/dataSet/handle/706,下载后应共有两个文件夹:Annotations和JPEGImages。其中Annotations为数据集的标注信息文件夹,包含每个训练图像对应的xml文件,内容格式可参考pascal voc 2007数据集中的标注文件格式,采用UTF-8无BOM编码格式;JPEGImages为训练的图像数据,其名称和Annotations文件夹中的名称一一对应。

提交要求

建议提交方式:
参赛者以json文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单任务单文件提交,由于该赛题任务为:自然环境中蝴蝶图像的目标检测,请参赛者提交检测结果submission.json。
submission.json为一个字典文件,键为类别索引【参考提交样例】,值为对应类别预测的结果列表,列表中每一个元素为单独一张图像的预测结果信息,每条信息包含的字段如下:

字段名类型取值范围字段解释
image_nameString-文件名
confidencefloat[0.0,1.0]分类置信度
x1float(-∞,+∞)预测框左上横坐标
y1float(-∞,+∞)预测框左上纵坐标
x2float(-∞,+∞)预测框右下横坐标
y2float(-∞,+∞)预测框右下纵坐标

【注】:x1, y1, x2, y2对应预测坐标在原图大小的坐标值,不能经过任何放缩或者变换,否则会造成最终评分异常。

提交示例

提交结果命名为submission.json,编码格式为UTF-8无BOM编码格式,且同一张图像数据可以有多条预测结果,即在对应类别列表中有多条image_name相同的预测信息。字段要求和内容格式见【提交要求】。具体示例:
{
‘0’:[
[ “IMG_000001”,0.55 ,1000,1000,2000,2000],
[ “IMG_000001”,0.55 ,1000,1000,2000,2000],
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],

],
‘1’:[
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000003”,0.65 ,1000,1000,2000,2000],

],
‘2’:[
[ “IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000002”,0.75 ,1000,1000,2000,2000],
[“IMG_000003”,0.65 ,1000,1000,2000,2000],

],
…}

【评测标准】
评价标准:我们用目标检测问题中最常用的度量标准 – 平均精度均值(mean Average Precision, mAP)作为任务的评价指标(all-points-interpolation法),结果采用以下计算规则:
1 根据ground truth 信息,统计每个类别所有预测实例,最终得到该类别的精确度(Percision)和召回率(Recall)列表,两者计算公式为:

image

2 设索引为i的类精确度为Pi,召回率为Ri,均为列表,Ri相邻两位(k和k-1位)的召回率差值为^rk,则索引为i的类的平均精度计算公式为:

image

3 计算mAP

image
赛题介绍
image

赛题名:电商用户购买行为预测

赛道:训练赛道

背景:互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型,用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率。

任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。

数据简介

数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。

数据说明

数据文件夹包含3个文件,依次为:

文件类别文件名文件内容
训练集train.csv训练数据集,标签为每个用户序列的最后一个商品编号
测试集test.csv测试数据集
提交样例submission.csv仅有两个字段user_id\product_id

文件字段说明:

名称标签
event_timeWhen event is was happened
event_typeEvent type: one of [view, cart, remove_from_cart, purchase]
product_idProduct ID
category_idProduct category ID
category_codeCategory meaningful name (if present)
brandBrand name in lower case (if present)
priceProduct price
user_idPermanent user ID
user_sessionUser session ID
提交要求

建议提交方式:
参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:

字段名类型取值范围字段解释
user_idInt-用户ID
product_idInt-商品ID
提交示例

示例如下:

user_idproduct_id
539785651977
539805877766
评测标准

本赛题采用召回率和平均倒数排名两个指标进行评价:

image

其中,TP是真正类,FN是假负类。是商品在推荐列表中的排名Ranki

赛题介绍
image

赛题名:通用音频分类

赛道:训练赛道

背景:随着移动终端的广泛应用以及数据量的不断积累,海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。有些声音是独特的,可以立即识别,例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂,很难区分。如果闭上眼睛,您能说出电锯和搅拌机是下面哪种声音?音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合,对于学术研究及工业应用具有重要意义。

任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型,希望大家探索更为鲁棒的音频表述方法,以及转移学习、自监督学习等方法在音频分类中的应用。

数据简介

数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。

数据说明

数据文件夹包含6个文件,依次为:

文件类别文件名文件内容
训练集音频文件夹train训练数据集音频文件
测试集音频文件夹test测试数据集音频文件
字段说明字段说明.xlsx训练集/测试集字段的具体说明
提交样例submission.csv仅有两个字段file_name\label
提交示例

建议提交方式:
参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:

file_namelabel
478bndrgbs.wavbed
cxdlny4rd1.wavbed
评测标准

1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
2、True,表示预测正确的样本数数量
3、Total Number of Samples,表示实际总样本数数量
4、计算公式如下:

image
赛题介绍
image

赛题名:漫画照片人脸识别竞赛

赛道:训练赛道

背景:计算机视觉研究领域对漫画的识别和生成越来越感兴趣。漫画识别的研究目的是研究计算机是否能从特定的照片中识别出漫画。近年来,这方面的研究越来越多,其主要原因之一是可以帮助理解人类如何识别脸,并且缩小人类感知和机器识别脸之间的差距。另一个主要原因则是有了更好的漫画识别机制,可以在保留内在身份的同时合成更好的漫画。过去的研究表明,对人类对照片人脸和漫画人脸的感知的研究可能有助于理解人类大脑是如何表征和编码面孔的。

任务:通过部分人物的漫画数据和照片数据,对漫画与照片之间的对映射关系进行建模,通过机器学习等相关技术,建立准确的漫画-照片人脸识别模型,判断漫画和照片身份之间的对应关系。

数据简介

数据来源于WebCaricature数据集,原数据集共包括属于252个人物的6042幅漫画和5974张照片。同时由于所有的漫画图片均来自网络爬虫爬取,因此数据集中的漫画的艺术风格是多种多样。此外,该数据集中也并不对光照条件、姿态、表情、遮挡和年龄等信息进行约束。训练赛道给出的数据是预处理裁剪好的部分数据,不需要再进行人脸检测和对齐,完整数据可从https://cs.nju.edu.cn/rl/WebCaricature.htm申请获取。

WebCaricature/train训练集图片文件夹,子目录文件夹对应人物(以人物姓名命名),人物姓名文件夹下存放该人物对应的图片,其中P开头表示照片,C开头表示漫画
WebCaricature/test测试集图片文件夹
WebCaricature/protocols/ FR_Train_dev.txt训练数据,每行分别表示人物身份,漫画数量以及照片数量
WebCaricature/protocols/C2PFR_Gallery_C2P.txt,C2P设置下的Gallery数据集(由照片构成),FR_Probe_C2P.txt,C2P设置下的Probe数据集(由漫画构成)。
WebCaricature/protocols/P2CFR_Gallery_P2C.txt,P2C设置下的Gallery数据集(由漫画构成),FR_Probe_P2C.txt,P2C设置下的Probe数据集(由照片构成)。
评测标准

参赛队员的算法需要计算找出与Probe中的图片人物身份相同的Gallery图片,返回该图片的名称作为Probe图片的匹配结果,赛方计算Rank-1准确率。

image

其中,Pi为第i个Probe图片的人物ID,Gi1为算法找出的第i个Probe图片的最相似人物ID。

赛题介绍

[图片上传中...(image-76ecf5-1608987982698-4)]

赛题名:真实场景下的水表读数自动识别

赛道:训练赛道

背景:当前,尽管智能水表正在取代老式的机械水表,但在许多地区,由于环境、成本等因素的限制,机械水表无法被替换,仍就需要人工手动进行抄表。为了实现对老式机械水表的自动识别,本次大赛开展了真实场景下的水表读数自动识别竞赛。

任务:本次大赛要求参赛者使用机器学习、深度学习或者光学字符识别等技术来实现对老式机械水表读数区域的自动识别,任务如图1所示:

image
  • 本次大赛的难点主要在两个方面:1、水表读数区域(图1中的“00095/00095”区域)的准确估计;2、对估计出的读数区域中数字的准确识别。
数据说明
文件名称说明
train_imgs.zip训练集图片,里面包含1000张水表图片
train_labels.zip训练集对应的标注答案结果,具体描述见本表后面文字
test_imgs.zip测试集图片,里面包含500张待识别水表图片
submit_example.csv提交样例,参赛者根据此格式进行提交

训练集结果文件说明:

image

标签文件的命名方式和训练集一致
标签中前八个值,为水表表盘的四个角点(x1, y1, x2, y2, x3, y3, x4, y4), 坐标值原点为图片的左上角,顺序为顺时针,且从左上角开始。后面的值为表盘的数值,由于最后一位出现半字符的情况,所以有两个数值。
图示:

[图片上传中...(image-d54df0-1608987982698-1)]

提交要求

csv结果提交:针对算法竞赛,参赛者以csv文件格式,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。
文件编码:UTF-8

提交示例

提交实例可参考submit_example.csv,内容如下
filename,result
test_1.jpg,00323
test_2.jpg,00323
test_3.jpg,00323
test_4.jpg,00323
test_5.jpg,00323
test_6.jpg,00323

评测标准

对于参赛者提交的结果,要求完全识别出读数区域的数字,如图1所示,5个数字全部识别正确才算正确识别出一张水表图片。水表图片中的数字没有全部识别正确,或者识别出了读数区域之外的其他任何字符都算作识别失败,最终将根据500张测试图像的正确率进行由高到低的排序。

[图片上传中...(image-2992b9-1608987982698-0)]


http://www.taodudu.cc/news/show-7952043.html

相关文章:

  • 计算机视觉企业场景应用?CV算法学习复盘:七月CV高级小班第八期
  • HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法
  • 一种用于端到端音频分离的多尺度神经网络
  • 竖脊肌(04):屈腿躬身
  • python发邮件收不到怎么办_利用python的smtp发送邮件后没收到邮件也没提示报错...
  • SpringBoot 发邮件
  • 云无心以出岫,鸟倦飞而知还。
  • y=sinx的概率分布推导
  • 计算sinx的近似值
  • 数学表达式中sinx泰勒近似的实现
  • 汇编语言_输出sinx的值
  • sinx的近似计算
  • AE动画导出json插件:Bodymovin for Mac v5.8.1
  • AE动画导出json插件:Bodymovin
  • MySQL高级第二讲
  • 冯诺依曼体系结构和操作系统的工作方式
  • Android工程师之ARTS挑战第六期第5周
  • python学生创意作品图片大全_中学生Python创意编程
  • 大一期末C/C++基于EasyX图形库的期末课设
  • vue实现一个星级打分效果_vue 星星评分组件
  • 字节后端训练营笔记(一)
  • 深度学习训练验证码
  • 深度学习的训练和调参
  • 计算机辅助训练对吞咽障碍,渡康医疗吞咽障碍100讲~吞咽障碍辅助训练方法
  • 训练和调参的理解
  • 预训练模型感悟
  • 肩部肌肉训练(动作图片)
  • ptaL1-040 身高差(10分)python
  • 身高差问题
  • 2528 最小身高差
  • 这篇关于DataFountain训练赛汇总,成长在于不断学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



    http://www.chinasem.cn/article/207429

    相关文章

    linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

    《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文

    Go学习记录之runtime包深入解析

    《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

    Linux实现线程同步的多种方式汇总

    《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

    Android学习总结之Java和kotlin区别超详细分析

    《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

    8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

    《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

    JAVA数组中五种常见排序方法整理汇总

    《JAVA数组中五种常见排序方法整理汇总》本文给大家分享五种常用的Java数组排序方法整理,每种方法结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录前言:法一:Arrays.sort()法二:冒泡排序法三:选择排序法四:反转排序法五:直接插入排序前言:几种常用的Java数组排序

    重新对Java的类加载器的学习方式

    《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

    防止SpringBoot程序崩溃的几种方式汇总

    《防止SpringBoot程序崩溃的几种方式汇总》本文总结了8种防止SpringBoot程序崩溃的方法,包括全局异常处理、try-catch、断路器、资源限制、监控、优雅停机、健康检查和数据库连接池配... 目录1. 全局异常处理2. 使用 try-catch 捕获异常3. 使用断路器4. 设置最大内存和线

    Android实现定时任务的几种方式汇总(附源码)

    《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

    Pandas中统计汇总可视化函数plot()的使用

    《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl