《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R)

2023-10-31 02:10

本文主要是介绍《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本节书摘来自异步社区《数据科学实战手册(R+Python)》一书中的第2章,第2.1节,作者【美】Tony Ojeda(托尼·奥杰德) , Sean Patrick Murphy(肖恩·派特里克·墨菲) , Benjamin Bengfort(本杰明·班福特) , Abhijit Dasgupta(阿布吉特·达斯古普塔),更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 汽车数据的可视化分析(R)

数据科学实战手册(R+Python)
本章涵盖如下内容。

  • 获取汽车燃料效率数据
  • 为了你的第一个项目准备好R
  • 将汽车燃料效率数据导入R
  • 探索和描述燃料效率数据
  • 进一步分析汽车燃料效率数据
  • 研究汽车的产量以及车型

简介
本书介绍的第一个项目是分析汽车燃料经济数据。我们首先用R对该数据集进行分析。R常常被称为数据科学通用语言,因为它是目前最流行的统计和数据分析语言。在本书前半部分的各个章节中,你将会看到R在数据处理、建模、可视化方面的过人之处,并开发一些有用的脚本,来完成你的分析工作。

本章的“食谱”大致涵盖数据科学管道中的如下步骤。

  • 获取
  • 探索和理解
  • 改写、整合以及处理
  • 分析和建模
  • 交流和实施

从流程上讲,数据科学管道是数据科学的骨架。为了精通数据科学,你需要通过应用多种工具和方法来实现这些流程,从而获取经验。这样,在有特定的数据集需要分析时,你将会知道哪些方法和工具是适合的。

本章的目的是引导你完成对于汽车燃料效率数据的分析。你将学到数据科学管道的这些步骤。未来其他项目将要进行数据分析时,你就可以应用这些步骤。将本章视为热身吧,更多的挑战将在后续章节展开。

获取汽车燃料效率数据
每一个数据科学的项目都是从数据开始的,本章也并不例外。对于我们的例子而言,我们需要深入研究一个包含燃料效率的数据集,在这个数据集中燃料效率用每英里消耗的燃料加仑数(MPG)来度量。数据集中包含自 1984 年开始记录的美国汽车的相关测量数据。这份数据来自美国能源部和美国环保局。数据集中除了包含燃料效率,还有一些汽车的其他特征。我们可以使用这些特征来对数据做分组汇总统计,从而看到哪个组的汽车燃料利用效率更高,并且我们可以看到这些数据是如何随着时间变化的。这份数据集的最新版本可以在如下地址获取:http://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip。关于这份数据集中各个变量的信息可以在如下地址得到:http://www.fueleconomy. gov/feg/ws/ index.shtml#vehicle。最新的数据是2013年12月4日更新的,本书中使用的数据是2013年12月8日从网站上下载的。


1f328fa8dd5db8b5b4218c6c6a065dda012f6ec8

我们推荐你使用随本书代码一起提供的数据集,这样可以保证代码产出的结果和本书展示的一致。
准备工作
为了完成本章的内容,首先你需要一台可以连接互联网的电脑,电脑上还需要安装一个文本编辑器。

处理流程
按照如下步骤进行,获取本章后续部分所需的数据。

1.在http://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip网站下载数据。

2.在电脑上用解压工具对vehicles.csv文件进行解压,然后把数据移动到你代码的目录下。

3.花一点时间,用微软的Excel或者Google的Spreadsheet或者某个简单的文本编辑器打开解压后的vehicles.csv文件。逗号分隔(csv)的文件是一种很容易处理的文件,这种文件可以用一些很基础而且免费的工具展示和处理。文件打开后,你可以先看看这份即将要处理的数据,找找感觉。

4.浏览网站http://www.fueleconomy.gov/feg/ws/index.shtml#vehicle。

5.选择vehicle下面数据描述的部分,并将它们复制粘贴到你本地的一个文本文件中。不要包含emissions部分。把这份文件存在你的工作目录下,命名为varlabels.txt。这份文件的头5行如下。

   atvtype - type of alternative fuel or advanced technologyvehiclebarrels08 - annual petroleum consumption in barrels forfuelType1 (1)barrelsA08 - annual petroleum consumption in barrels forfuelType2 (1)charge120 - time to charge an electric vehicle in hours at120 Vcharge240 - time to charge an electric vehicle in hours at240 V


e7919665c4bc07f3463b71cd7001df00b557a33a

为了你的方便,这份文件已经包含在本章的代码库中。
工作原理
一开始的这些部分,没有太多需要解释的。但是要注意的是,我们这里开始的相对比较简单。在一些数据科学项目中,你是无法如此容易地获取和观察数据的。

为了你的第一个项目准备好R
为完成后续的工作,你需要在电脑上安装一个R的环境(基础的R或者RStudio都可以,但是我们强烈建议你安装强大而免费的RStudio),并且已经在电脑里保存了汽车燃料效率的数据集。请确保你的电脑里已经包含上述本次分析所需要的所有内容。

准备工作
我们需要连接到互联网,而且我们假设你的平台上已经安装了RStudio,安装的过程在前一章已经提供了。

处理流程
如果你正在使用RStudio,只需执行以下三步。

1.打开RStudio。

2.在R的命令窗口,安装这个项目需要的R包:install.packages("plyr") install.packages("ggplot2")install.packages("reshape2")

3.载入这些R包:library(plyr) library(ggplot2) library(reshape2)

工作原理
R的优点在于其社区以及该社区围绕R语言所开发的各种功能的包,这些包对于R社区的所有成员都是可以获取的。目前有4 000多个包,这些包可以令你的数据分析任务变得容易很多。

Hadley Wickham博士是R社区中非常有影响力的成员。他已经产出了一大批优质并且经常被使用的R包。在本章中,你会初步使用他的两大杀器:plyr以及ggplot2。此外,你还会使用第三个包:reshape2。plyr用于对数据集进行分裂——合并的分析,本章稍后会解释它是怎么工作的。ggplot2会使复杂数据的可视化变得更容易。

参考资料

  • R的主页:http://www.r-project.org/
  • RStudio主页:http://www.rstudio.com/
  • R简介:http://www.cyclismo.org/tutorial/R/
  • R相对完整的入门指南:http://www.statmethods.net/about/sitemap.html
  • plyr参考文档:http://cran.r-project.org/web/packages/plyr/plyr.pdf
  • ggplot2参考文档:http://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf
  • Wickham博士的主页:http://had.co.nz/

将汽车燃料效率数据导入R
依据前面的指导,你已经安装好了所需的所有原料,现在你可以把数据导入R中,并开始做一些初步的分析,从而对数据的情况有一个初步的感觉。

准备工作
本章中用到的大多数分析是累加的,也就是说前一段分析的方法或者结论会用在后续的分析中。因此,如果你已经完成了前面的步骤,则你已经有了接下来分析所需要的所有东西。

处理流程
以下几步会引导你将数据导入R中。

1.首先,将工作路径设定到本地保存了vehicles.csv的路径下:setwd("path")


这篇关于《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/312092

相关文章

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/