10个得心应手的数据网站,助你完成数据科学项目

2023-12-25 23:50

本文主要是介绍10个得心应手的数据网站,助你完成数据科学项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍10个获取所需数据的网站,助力数据科学项目。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

图片

当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。

本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。

如何审查数据源?

如果你在本文中看到一个网站,那是因为它包含的数据是:

  • 免费提供。你不需要为它付费。

  • 面向社区。它不仅仅是一个文件;会有一些评论和解释。

  • 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。

  • 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。

10个网站为你的数据科学项目获取很棒的数据

让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。

网站特点
Google Dataset Search超级广泛,质量不一
Kaggle更为有限,但有很多背景和社区
KDNuggets专门针对AI、ML、数据科学的网站
Government websites种类繁多,学习资源丰富
Pudding.cool流行文化、散文
538体育、政治、清洁数据
Tidy Tuesdays混乱的数据,伟大的社区
GitHub大量的可搜索数据,有评论,质量不一
Buzzfeed流行文化、散文、严谨的科学
Awesome Public Datasets种类繁多,只有数据集,没有评论

1. Google’s Dataset Search

链接:https://datasetsearch.research.google.com/

实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。

Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。

例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。

图片

来源:Google Dataset Search

推荐这个网站的原因:

  • 它的用途超级广泛。你几乎肯定会找到你关心的东西。

  • 它是即时适用的。这个网站包括其他使用过这个数据集的论文,所以你可以看到其他人已经用这个数据做了什么有趣的事情。

  • 你可以切换到只包括免费数据集。

  • 它为你提取了背景,所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。

这是一个很好的开始。

2. Kaggle

链接:https://www.kaggle.com/datasets

Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。

它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。

这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。

图片

来源:Kaggle Datasets

推荐这个网站的原因:

  • 社区方面是如此强大。点击那只猫的数据集,可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。

  • 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。

  • 你也可以反其道而行之——查看他们的比赛,看看是否有你感兴趣的东西,然后使用配套的数据集。

3. KDNuggets

链接:kdnuggets.com/datasets/index.html

KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。

其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。

图片

来源:KDnuggets Datasets

推荐这个网站的原因:

  • 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的,但这些数据集都是专门为AI、机器学习和数据科学而设的。

  • 对每个数据集的快速描述。仅仅是一点点的背景,以帮助你决定它是否是适合你的数据集。

4. Government websites

可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:

  • http://datasf.org/

  • http://data.gov.uk

  • https://www.usa.gov/About/developer-resources/1usagov.shtml

  • https://www.census.gov/data/datasets.html

各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。

图片

推荐这些网站的原因:

  • 这些数据是用于研究的,所以它通常是相当干净和有组织的。

  • 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。

  • 这通常是非常最新的数据。

  • 围绕着这些数据往往有一些很酷的故事。

  • 许多政府已经投入资源向你展示如何访问或使用这些数据,如人口普查局。

5. Pudding.cool

链接:https://pudding.cool/2023/01/lit-canon/

如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。

这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。

图片

来源:The Pudding

推荐这个网站的原因:

  • 很棒且有趣的数据。

  • 分享数据和脚本。

  • 很多你可能关心的东西都是IRL。

6. 538

链接:https://data.fivethirtyeight.com/

另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。

图片

来源:FiveThirtyEight Data

推荐这个网站的原因:

  • 有数据支持的智能故事,你可以深入研究。

  • 数据采用干净的CSV格式。

  • 数据来源高度可靠。

7. Tidy Tuesdays

链接:https://github.com/rfordatascience/tidytuesday

Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。

每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。

图片

来源:TidyTuesday GitHub

推荐这个网站的原因:

  • 这个社区是令人难以置信的。每周你都能学到新东西。

  • 它是如此方便。不用去寻找数据集,获取每周的投放。

  • 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。

8. GitHub

链接:https://github.com/

GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。

但是,我觉得它的好处弥补了这一点。

图片

来源:GitHub Cat Data

推荐这个网站的原因:

  • 你可以按语言过滤,如Python、Javascript或其他语言。

  • 这里有大量的数据。

  • 通常这些数据都带有某种评论或代码,你可以查看。

9. Buzzfeed

链接:https://github.com/BuzzFeedNews

Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。

这也都是开源的。

图片

来源:BuzzFeed News GitHub

推荐这个网站的原因:

  • 有趣的数据,经过预先清理,并以文章的形式附上精心编写的评论。

  • 较重的话题。这里强调的是更复杂的话题,例如政治和健康,但也有很多其他话题。

10. Awesome Public Datasets

链接:https://github.com/awesomedata/awesome-public-datasets

Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。

图片

来源:Awesome Public Datasets GitHub

推荐这个网站的原因:

  • 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。

  • 精心策划的。数据集的质量很高。

这些网站提供很棒的数据科学数据集

深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。

有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。

推荐书单

《Python数据分析从入门到精通》

《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。

该书所有示例、案例和实战项目都提供源码,另外该书的服务网站提供了模块库、案例库、题库、素材库、答疑服务,力求为读者打造一本“基础入门+应用开发+项目实战”一体化的Python数据分析图书。

《Python数据分析从入门到精通》内容详尽,图文丰富,非常适合作为数据分析人员的学习参考用书,也可作为想拓展数据分析技能的普通职场人员和Python开发人员学习参考用书。

购买链接:https://item.jd.com/13288736.html

图片

精彩回顾

《数据分析实战,用Python热力图分析房地产市场》

《对于非结构化数据,EDA探索性数据分析该怎么做?》

《数据分析实战,用Pandas分析二手车市场行情》

《学习效率翻倍,用ChatGPT来学习SQL数据分析》

《11个超级实用的Pandas函数(下)》

《11个超级实用的Pandas函数(上)》

微信搜索关注《Python学研大本营》,加入读者群

访问【IT今日热榜】,发现每日技术热点

这篇关于10个得心应手的数据网站,助你完成数据科学项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537412

相关文章

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

MyCat分库分表的项目实践

《MyCat分库分表的项目实践》分库分表解决大数据量和高并发性能瓶颈,MyCat作为中间件支持分片、读写分离与事务处理,本文就来介绍一下MyCat分库分表的实践,感兴趣的可以了解一下... 目录一、为什么要分库分表?二、分库分表的常见方案三、MyCat简介四、MyCat分库分表深度解析1. 架构原理2. 分

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl