开源数据集的获取不该成为你的阻塞项

2024-01-01 17:04

本文主要是介绍开源数据集的获取不该成为你的阻塞项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

当可获取的数据有限,公共的开源数据集将是不错的选择

很多人并不知道该如何获取最权威的官方数据,亦或是不清楚有哪些数据集能为之所用,最适合自己的任务场景

不用急,本篇整理了5个获取数据集的方法且在文章的最后还准备了大招

告诉大家如何直接检测数据集,一一陈列出最相关结果,导师不管你,有人管

kaggle

kaggle是一个为开发商和数据科学家提供举办数据科学竞赛、托管数据库、编写和分享代码的在线平台

图片

https://www.kaggle.com/

进入 kaggle官网。可以发现有Compete,Datasets,Code,Discussions,Courses等其他板块

在 Kaggle 中,可以找到完成数据科学工作所需的所有代码和数据。使用超过 50,000 个公共数据集和 400,000 个公共笔记说明解决与征服任何分析问题

在搜索栏下方有准备一些常用分支的词条,当不知道挑选什么数据集作为先验或扩增时可以慢慢浏览,有十多万个数据集供大家挑选

此外,如果你有明确的目的,那么可以直接使用关键词搜索,并且在高级过滤功能中还可以选择数据集大小与数据类型等

以2022FIFA数据集为例,进入数据集后,有作者对该数据集的简介,数据划分依据和内容说明,比如这个数据集按小组划分,小组内包含各国家

图片

国家中以球员姓名的子文件夹下包含对应球员图片,拥有830个类别共计四万一千张图片

可以清晰的看到数据组织形式,此外有的还将提供代码全程指导如何利用这个数据集

paper with code

这个网站建议每个从事于人工智能领域的同学都将其添加至常用中

图片

https://paperswithcode.com/

该网站搜集了大量最新和过往各领域论文及对应代码,最主要的是可以找寻目前某领域内最好的,也就是常说的sota论文及其code实现

说到正题,我们进入dataset板块,可以看到可以根据数据形态进入如图片、文本、视频等模块寻找数据集

图片

也可以根据任务进入如目标检测、姿态估计、文本分类等模块

还可以按语言进行过滤,同样的也可以直接进行关键词搜索

进入指定数据集后会提供论文地址,最重要的是基于该数据集上不同任务的sota也可以查询到,不仅拿到了数据集,还可以学习sota论文

roboflow

号称拥有世界上最大的计算机视觉开源数据集与API

图片

https://roboflow.com/

包含十一万数据集,一亿张图像以及一万多个预训练模型

其提供的板块均与计算机视觉相关,且数据集均由图像组成

Roboflow提供将原始图像转换为自定义训练的计算机视觉模型并将其部署应用的所有工具

你可以在这里实现标注、转换、预处理、增强等功能,也是YOLOv5官方推介的网站

图片

很有意思的是当进入某个指定的数据集后,可以在线尝试基于该数据集的预训练模型检测效果

无需任何操作,只需选择本地数据即可,可以是单张图片、视频、图片或视频的链接及本地摄像头

此外,也可以浏览某些基于该数据集的训练、验证、测试效果

点击下载数据集时,也支持适配不同任务甚至是不同模型的格式,非常贴心,非常强大

Mendeley Data

图片

https://data.mendeley.com/

读研那会我的英文文献都是用mendeley进行管理,以前爱斯维尔下的期刊投稿时,有的期刊投稿指南也会推介使用该工具

在导出参考文献时方便迅速制作成该期刊指定的格式,但很多人不知道的是其实它有自己的数据管理库

包含了将近七万个数据集,此外诸如图片、文本、音频甚至是代码与软件都有提供,均与某项研究强相关

所以该数据库专业性将更上一个层次,如果选择将数据集存放于此,将拥有独特的 DOI 和易于使用的引用工具使得轻松引用自己的研究数据

最重要的是支持白嫖,每个数据集有作者的介绍,可以直接一键打包下载,甚至都不用登录账号

IEEEDataPort

图片

https://www.ieee.org/

IEEE相信每个科研人员都不陌生,没错,他自己也有数据平台,其中就包含了数据集

可以看到它也按方向分了许多大类,也可以通过关键词、作者、摘要、DOI进行检索,和Mendeley一样,数据集的专业性强

但与前面几个不同的是,它是付费的,如果你的研究与某个数据集强相关,可以考虑,其实前四个已经可以满足绝大多数需求了,还是白嫖最舒服

但我相信你们不会白嫖这篇文章对吧

google dataset search

最后就来说说我认为超有用的数据集检索方式

图片

https://datasetsearch.research.google.com/

和正常搜索操作一样,只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集,使数据集能供用户普遍访问并发挥作用

比如我们搜索mask这个关键词,一系列和它相关的数据集被一一陈列在左侧,诸如前面提的kaggle、roboflow均包含在其中

图片

还有许多其他我未提及的网站都被检索出来,任意选择一个,右边将陈列与该数据集相关的如最近一次更新日期、作者、摘要等信息

且给出了原链接,点击可直接跳转,非常方便

不希望公开数据资源的获取能成为各位的阻塞项,以上就是本期的全部内容,我是啥都生,下期再见

这篇关于开源数据集的获取不该成为你的阻塞项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559928

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

SpringBoot整合mybatisPlus实现批量插入并获取ID详解

《SpringBoot整合mybatisPlus实现批量插入并获取ID详解》这篇文章主要为大家详细介绍了SpringBoot如何整合mybatisPlus实现批量插入并获取ID,文中的示例代码讲解详细... 目录【1】saveBATch(一万条数据总耗时:2478ms)【2】集合方式foreach(一万条数

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.

SpringBoot UserAgentUtils获取用户浏览器的用法

《SpringBootUserAgentUtils获取用户浏览器的用法》UserAgentUtils是于处理用户代理(User-Agent)字符串的工具类,一般用于解析和处理浏览器、操作系统以及设备... 目录介绍效果图依赖封装客户端工具封装IP工具实体类获取设备信息入库介绍UserAgentUtils

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处