10个得心应手的数据网站,助你完成数据科学项目

2023-12-25 23:50

本文主要是介绍10个得心应手的数据网站,助你完成数据科学项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍10个获取所需数据的网站,助力数据科学项目。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

图片

当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。

本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。

如何审查数据源?

如果你在本文中看到一个网站,那是因为它包含的数据是:

  • 免费提供。你不需要为它付费。

  • 面向社区。它不仅仅是一个文件;会有一些评论和解释。

  • 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。

  • 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。

10个网站为你的数据科学项目获取很棒的数据

让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。

网站特点
Google Dataset Search超级广泛,质量不一
Kaggle更为有限,但有很多背景和社区
KDNuggets专门针对AI、ML、数据科学的网站
Government websites种类繁多,学习资源丰富
Pudding.cool流行文化、散文
538体育、政治、清洁数据
Tidy Tuesdays混乱的数据,伟大的社区
GitHub大量的可搜索数据,有评论,质量不一
Buzzfeed流行文化、散文、严谨的科学
Awesome Public Datasets种类繁多,只有数据集,没有评论

1. Google’s Dataset Search

链接:https://datasetsearch.research.google.com/

实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。

Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。

例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。

图片

来源:Google Dataset Search

推荐这个网站的原因:

  • 它的用途超级广泛。你几乎肯定会找到你关心的东西。

  • 它是即时适用的。这个网站包括其他使用过这个数据集的论文,所以你可以看到其他人已经用这个数据做了什么有趣的事情。

  • 你可以切换到只包括免费数据集。

  • 它为你提取了背景,所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。

这是一个很好的开始。

2. Kaggle

链接:https://www.kaggle.com/datasets

Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。

它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。

这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。

图片

来源:Kaggle Datasets

推荐这个网站的原因:

  • 社区方面是如此强大。点击那只猫的数据集,可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。

  • 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。

  • 你也可以反其道而行之——查看他们的比赛,看看是否有你感兴趣的东西,然后使用配套的数据集。

3. KDNuggets

链接:kdnuggets.com/datasets/index.html

KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。

其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。

图片

来源:KDnuggets Datasets

推荐这个网站的原因:

  • 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的,但这些数据集都是专门为AI、机器学习和数据科学而设的。

  • 对每个数据集的快速描述。仅仅是一点点的背景,以帮助你决定它是否是适合你的数据集。

4. Government websites

可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:

  • http://datasf.org/

  • http://data.gov.uk

  • https://www.usa.gov/About/developer-resources/1usagov.shtml

  • https://www.census.gov/data/datasets.html

各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。

图片

推荐这些网站的原因:

  • 这些数据是用于研究的,所以它通常是相当干净和有组织的。

  • 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。

  • 这通常是非常最新的数据。

  • 围绕着这些数据往往有一些很酷的故事。

  • 许多政府已经投入资源向你展示如何访问或使用这些数据,如人口普查局。

5. Pudding.cool

链接:https://pudding.cool/2023/01/lit-canon/

如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。

这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。

图片

来源:The Pudding

推荐这个网站的原因:

  • 很棒且有趣的数据。

  • 分享数据和脚本。

  • 很多你可能关心的东西都是IRL。

6. 538

链接:https://data.fivethirtyeight.com/

另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。

图片

来源:FiveThirtyEight Data

推荐这个网站的原因:

  • 有数据支持的智能故事,你可以深入研究。

  • 数据采用干净的CSV格式。

  • 数据来源高度可靠。

7. Tidy Tuesdays

链接:https://github.com/rfordatascience/tidytuesday

Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。

每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。

图片

来源:TidyTuesday GitHub

推荐这个网站的原因:

  • 这个社区是令人难以置信的。每周你都能学到新东西。

  • 它是如此方便。不用去寻找数据集,获取每周的投放。

  • 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。

8. GitHub

链接:https://github.com/

GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。

但是,我觉得它的好处弥补了这一点。

图片

来源:GitHub Cat Data

推荐这个网站的原因:

  • 你可以按语言过滤,如Python、Javascript或其他语言。

  • 这里有大量的数据。

  • 通常这些数据都带有某种评论或代码,你可以查看。

9. Buzzfeed

链接:https://github.com/BuzzFeedNews

Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。

这也都是开源的。

图片

来源:BuzzFeed News GitHub

推荐这个网站的原因:

  • 有趣的数据,经过预先清理,并以文章的形式附上精心编写的评论。

  • 较重的话题。这里强调的是更复杂的话题,例如政治和健康,但也有很多其他话题。

10. Awesome Public Datasets

链接:https://github.com/awesomedata/awesome-public-datasets

Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。

图片

来源:Awesome Public Datasets GitHub

推荐这个网站的原因:

  • 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。

  • 精心策划的。数据集的质量很高。

这些网站提供很棒的数据科学数据集

深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。

有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。

推荐书单

《Python数据分析从入门到精通》

《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。

该书所有示例、案例和实战项目都提供源码,另外该书的服务网站提供了模块库、案例库、题库、素材库、答疑服务,力求为读者打造一本“基础入门+应用开发+项目实战”一体化的Python数据分析图书。

《Python数据分析从入门到精通》内容详尽,图文丰富,非常适合作为数据分析人员的学习参考用书,也可作为想拓展数据分析技能的普通职场人员和Python开发人员学习参考用书。

购买链接:https://item.jd.com/13288736.html

图片

精彩回顾

《数据分析实战,用Python热力图分析房地产市场》

《对于非结构化数据,EDA探索性数据分析该怎么做?》

《数据分析实战,用Pandas分析二手车市场行情》

《学习效率翻倍,用ChatGPT来学习SQL数据分析》

《11个超级实用的Pandas函数(下)》

《11个超级实用的Pandas函数(上)》

微信搜索关注《Python学研大本营》,加入读者群

访问【IT今日热榜】,发现每日技术热点

这篇关于10个得心应手的数据网站,助你完成数据科学项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537412

相关文章

springboot项目中整合高德地图的实践

《springboot项目中整合高德地图的实践》:本文主要介绍springboot项目中整合高德地图的实践,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一:高德开放平台的使用二:创建数据库(我是用的是mysql)三:Springboot所需的依赖(根据你的需求再

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

springboot项目中使用JOSN解析库的方法

《springboot项目中使用JOSN解析库的方法》JSON,全程是JavaScriptObjectNotation,是一种轻量级的数据交换格式,本文给大家介绍springboot项目中使用JOSN... 目录一、jsON解析简介二、Spring Boot项目中使用JSON解析1、pom.XML文件引入依

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据