10个得心应手的数据网站,助你完成数据科学项目

2023-12-25 23:50

本文主要是介绍10个得心应手的数据网站,助你完成数据科学项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍10个获取所需数据的网站,助力数据科学项目。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

图片

当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。

本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。

如何审查数据源?

如果你在本文中看到一个网站,那是因为它包含的数据是:

  • 免费提供。你不需要为它付费。

  • 面向社区。它不仅仅是一个文件;会有一些评论和解释。

  • 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。

  • 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。

10个网站为你的数据科学项目获取很棒的数据

让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。

网站特点
Google Dataset Search超级广泛,质量不一
Kaggle更为有限,但有很多背景和社区
KDNuggets专门针对AI、ML、数据科学的网站
Government websites种类繁多,学习资源丰富
Pudding.cool流行文化、散文
538体育、政治、清洁数据
Tidy Tuesdays混乱的数据,伟大的社区
GitHub大量的可搜索数据,有评论,质量不一
Buzzfeed流行文化、散文、严谨的科学
Awesome Public Datasets种类繁多,只有数据集,没有评论

1. Google’s Dataset Search

链接:https://datasetsearch.research.google.com/

实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。

Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。

例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。

图片

来源:Google Dataset Search

推荐这个网站的原因:

  • 它的用途超级广泛。你几乎肯定会找到你关心的东西。

  • 它是即时适用的。这个网站包括其他使用过这个数据集的论文,所以你可以看到其他人已经用这个数据做了什么有趣的事情。

  • 你可以切换到只包括免费数据集。

  • 它为你提取了背景,所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。

这是一个很好的开始。

2. Kaggle

链接:https://www.kaggle.com/datasets

Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。

它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。

这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。

图片

来源:Kaggle Datasets

推荐这个网站的原因:

  • 社区方面是如此强大。点击那只猫的数据集,可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。

  • 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。

  • 你也可以反其道而行之——查看他们的比赛,看看是否有你感兴趣的东西,然后使用配套的数据集。

3. KDNuggets

链接:kdnuggets.com/datasets/index.html

KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。

其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。

图片

来源:KDnuggets Datasets

推荐这个网站的原因:

  • 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的,但这些数据集都是专门为AI、机器学习和数据科学而设的。

  • 对每个数据集的快速描述。仅仅是一点点的背景,以帮助你决定它是否是适合你的数据集。

4. Government websites

可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:

  • http://datasf.org/

  • http://data.gov.uk

  • https://www.usa.gov/About/developer-resources/1usagov.shtml

  • https://www.census.gov/data/datasets.html

各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。

图片

推荐这些网站的原因:

  • 这些数据是用于研究的,所以它通常是相当干净和有组织的。

  • 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。

  • 这通常是非常最新的数据。

  • 围绕着这些数据往往有一些很酷的故事。

  • 许多政府已经投入资源向你展示如何访问或使用这些数据,如人口普查局。

5. Pudding.cool

链接:https://pudding.cool/2023/01/lit-canon/

如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。

这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。

图片

来源:The Pudding

推荐这个网站的原因:

  • 很棒且有趣的数据。

  • 分享数据和脚本。

  • 很多你可能关心的东西都是IRL。

6. 538

链接:https://data.fivethirtyeight.com/

另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。

图片

来源:FiveThirtyEight Data

推荐这个网站的原因:

  • 有数据支持的智能故事,你可以深入研究。

  • 数据采用干净的CSV格式。

  • 数据来源高度可靠。

7. Tidy Tuesdays

链接:https://github.com/rfordatascience/tidytuesday

Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。

每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。

图片

来源:TidyTuesday GitHub

推荐这个网站的原因:

  • 这个社区是令人难以置信的。每周你都能学到新东西。

  • 它是如此方便。不用去寻找数据集,获取每周的投放。

  • 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。

8. GitHub

链接:https://github.com/

GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。

但是,我觉得它的好处弥补了这一点。

图片

来源:GitHub Cat Data

推荐这个网站的原因:

  • 你可以按语言过滤,如Python、Javascript或其他语言。

  • 这里有大量的数据。

  • 通常这些数据都带有某种评论或代码,你可以查看。

9. Buzzfeed

链接:https://github.com/BuzzFeedNews

Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。

这也都是开源的。

图片

来源:BuzzFeed News GitHub

推荐这个网站的原因:

  • 有趣的数据,经过预先清理,并以文章的形式附上精心编写的评论。

  • 较重的话题。这里强调的是更复杂的话题,例如政治和健康,但也有很多其他话题。

10. Awesome Public Datasets

链接:https://github.com/awesomedata/awesome-public-datasets

Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。

图片

来源:Awesome Public Datasets GitHub

推荐这个网站的原因:

  • 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。

  • 精心策划的。数据集的质量很高。

这些网站提供很棒的数据科学数据集

深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。

有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。

推荐书单

《Python数据分析从入门到精通》

《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。

该书所有示例、案例和实战项目都提供源码,另外该书的服务网站提供了模块库、案例库、题库、素材库、答疑服务,力求为读者打造一本“基础入门+应用开发+项目实战”一体化的Python数据分析图书。

《Python数据分析从入门到精通》内容详尽,图文丰富,非常适合作为数据分析人员的学习参考用书,也可作为想拓展数据分析技能的普通职场人员和Python开发人员学习参考用书。

购买链接:https://item.jd.com/13288736.html

图片

精彩回顾

《数据分析实战,用Python热力图分析房地产市场》

《对于非结构化数据,EDA探索性数据分析该怎么做?》

《数据分析实战,用Pandas分析二手车市场行情》

《学习效率翻倍,用ChatGPT来学习SQL数据分析》

《11个超级实用的Pandas函数(下)》

《11个超级实用的Pandas函数(上)》

微信搜索关注《Python学研大本营》,加入读者群

访问【IT今日热榜】,发现每日技术热点

这篇关于10个得心应手的数据网站,助你完成数据科学项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537412

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1