10个得心应手的数据网站,助你完成数据科学项目

2023-12-25 23:50

本文主要是介绍10个得心应手的数据网站,助你完成数据科学项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍10个获取所需数据的网站,助力数据科学项目。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

图片

当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。

本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。

如何审查数据源?

如果你在本文中看到一个网站,那是因为它包含的数据是:

  • 免费提供。你不需要为它付费。

  • 面向社区。它不仅仅是一个文件;会有一些评论和解释。

  • 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。

  • 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。

10个网站为你的数据科学项目获取很棒的数据

让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。

网站特点
Google Dataset Search超级广泛,质量不一
Kaggle更为有限,但有很多背景和社区
KDNuggets专门针对AI、ML、数据科学的网站
Government websites种类繁多,学习资源丰富
Pudding.cool流行文化、散文
538体育、政治、清洁数据
Tidy Tuesdays混乱的数据,伟大的社区
GitHub大量的可搜索数据,有评论,质量不一
Buzzfeed流行文化、散文、严谨的科学
Awesome Public Datasets种类繁多,只有数据集,没有评论

1. Google’s Dataset Search

链接:https://datasetsearch.research.google.com/

实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。

Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。

例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。

图片

来源:Google Dataset Search

推荐这个网站的原因:

  • 它的用途超级广泛。你几乎肯定会找到你关心的东西。

  • 它是即时适用的。这个网站包括其他使用过这个数据集的论文,所以你可以看到其他人已经用这个数据做了什么有趣的事情。

  • 你可以切换到只包括免费数据集。

  • 它为你提取了背景,所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。

这是一个很好的开始。

2. Kaggle

链接:https://www.kaggle.com/datasets

Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。

它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。

这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。

图片

来源:Kaggle Datasets

推荐这个网站的原因:

  • 社区方面是如此强大。点击那只猫的数据集,可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。

  • 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。

  • 你也可以反其道而行之——查看他们的比赛,看看是否有你感兴趣的东西,然后使用配套的数据集。

3. KDNuggets

链接:kdnuggets.com/datasets/index.html

KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。

其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。

图片

来源:KDnuggets Datasets

推荐这个网站的原因:

  • 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的,但这些数据集都是专门为AI、机器学习和数据科学而设的。

  • 对每个数据集的快速描述。仅仅是一点点的背景,以帮助你决定它是否是适合你的数据集。

4. Government websites

可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:

  • http://datasf.org/

  • http://data.gov.uk

  • https://www.usa.gov/About/developer-resources/1usagov.shtml

  • https://www.census.gov/data/datasets.html

各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。

图片

推荐这些网站的原因:

  • 这些数据是用于研究的,所以它通常是相当干净和有组织的。

  • 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。

  • 这通常是非常最新的数据。

  • 围绕着这些数据往往有一些很酷的故事。

  • 许多政府已经投入资源向你展示如何访问或使用这些数据,如人口普查局。

5. Pudding.cool

链接:https://pudding.cool/2023/01/lit-canon/

如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。

这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。

图片

来源:The Pudding

推荐这个网站的原因:

  • 很棒且有趣的数据。

  • 分享数据和脚本。

  • 很多你可能关心的东西都是IRL。

6. 538

链接:https://data.fivethirtyeight.com/

另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。

图片

来源:FiveThirtyEight Data

推荐这个网站的原因:

  • 有数据支持的智能故事,你可以深入研究。

  • 数据采用干净的CSV格式。

  • 数据来源高度可靠。

7. Tidy Tuesdays

链接:https://github.com/rfordatascience/tidytuesday

Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。

每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。

图片

来源:TidyTuesday GitHub

推荐这个网站的原因:

  • 这个社区是令人难以置信的。每周你都能学到新东西。

  • 它是如此方便。不用去寻找数据集,获取每周的投放。

  • 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。

8. GitHub

链接:https://github.com/

GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。

但是,我觉得它的好处弥补了这一点。

图片

来源:GitHub Cat Data

推荐这个网站的原因:

  • 你可以按语言过滤,如Python、Javascript或其他语言。

  • 这里有大量的数据。

  • 通常这些数据都带有某种评论或代码,你可以查看。

9. Buzzfeed

链接:https://github.com/BuzzFeedNews

Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。

这也都是开源的。

图片

来源:BuzzFeed News GitHub

推荐这个网站的原因:

  • 有趣的数据,经过预先清理,并以文章的形式附上精心编写的评论。

  • 较重的话题。这里强调的是更复杂的话题,例如政治和健康,但也有很多其他话题。

10. Awesome Public Datasets

链接:https://github.com/awesomedata/awesome-public-datasets

Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。

图片

来源:Awesome Public Datasets GitHub

推荐这个网站的原因:

  • 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。

  • 精心策划的。数据集的质量很高。

这些网站提供很棒的数据科学数据集

深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。

有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。

推荐书单

《Python数据分析从入门到精通》

《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。

该书所有示例、案例和实战项目都提供源码,另外该书的服务网站提供了模块库、案例库、题库、素材库、答疑服务,力求为读者打造一本“基础入门+应用开发+项目实战”一体化的Python数据分析图书。

《Python数据分析从入门到精通》内容详尽,图文丰富,非常适合作为数据分析人员的学习参考用书,也可作为想拓展数据分析技能的普通职场人员和Python开发人员学习参考用书。

购买链接:https://item.jd.com/13288736.html

图片

精彩回顾

《数据分析实战,用Python热力图分析房地产市场》

《对于非结构化数据,EDA探索性数据分析该怎么做?》

《数据分析实战,用Pandas分析二手车市场行情》

《学习效率翻倍,用ChatGPT来学习SQL数据分析》

《11个超级实用的Pandas函数(下)》

《11个超级实用的Pandas函数(上)》

微信搜索关注《Python学研大本营》,加入读者群

访问【IT今日热榜】,发现每日技术热点

这篇关于10个得心应手的数据网站,助你完成数据科学项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537412

相关文章

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring