《数据科学实战手册（R+Python）》一第2章汽车数据的可视化分析（R）

本节书摘来自异步社区《数据科学实战手册（R+Python）》一书中的第2章，第2.1节，作者【美】Tony Ojeda（托尼·奥杰德） , Sean Patrick Murphy（肖恩·派特里克·墨菲） , Benjamin Bengfort（本杰明·班福特） , Abhijit Dasgupta（阿布吉特·达斯古普塔），更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章汽车数据的可视化分析（R）

数据科学实战手册（R+Python）
本章涵盖如下内容。

获取汽车燃料效率数据
为了你的第一个项目准备好R
将汽车燃料效率数据导入R
探索和描述燃料效率数据
进一步分析汽车燃料效率数据
研究汽车的产量以及车型

简介
本书介绍的第一个项目是分析汽车燃料经济数据。我们首先用R对该数据集进行分析。R常常被称为数据科学通用语言，因为它是目前最流行的统计和数据分析语言。在本书前半部分的各个章节中，你将会看到R在数据处理、建模、可视化方面的过人之处，并开发一些有用的脚本，来完成你的分析工作。

本章的“食谱”大致涵盖数据科学管道中的如下步骤。

获取
探索和理解
改写、整合以及处理
分析和建模
交流和实施

从流程上讲，数据科学管道是数据科学的骨架。为了精通数据科学，你需要通过应用多种工具和方法来实现这些流程，从而获取经验。这样，在有特定的数据集需要分析时，你将会知道哪些方法和工具是适合的。

本章的目的是引导你完成对于汽车燃料效率数据的分析。你将学到数据科学管道的这些步骤。未来其他项目将要进行数据分析时，你就可以应用这些步骤。将本章视为热身吧，更多的挑战将在后续章节展开。

获取汽车燃料效率数据
每一个数据科学的项目都是从数据开始的，本章也并不例外。对于我们的例子而言，我们需要深入研究一个包含燃料效率的数据集，在这个数据集中燃料效率用每英里消耗的燃料加仑数（MPG）来度量。数据集中包含自 1984 年开始记录的美国汽车的相关测量数据。这份数据来自美国能源部和美国环保局。数据集中除了包含燃料效率，还有一些汽车的其他特征。我们可以使用这些特征来对数据做分组汇总统计，从而看到哪个组的汽车燃料利用效率更高，并且我们可以看到这些数据是如何随着时间变化的。这份数据集的最新版本可以在如下地址获取：http://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip。关于这份数据集中各个变量的信息可以在如下地址得到：http://www.fueleconomy. gov/feg/ws/ index.shtml#vehicle。最新的数据是2013年12月4日更新的，本书中使用的数据是2013年12月8日从网站上下载的。

1f328fa8dd5db8b5b4218c6c6a065dda012f6ec8

我们推荐你使用随本书代码一起提供的数据集，这样可以保证代码产出的结果和本书展示的一致。
准备工作
为了完成本章的内容，首先你需要一台可以连接互联网的电脑，电脑上还需要安装一个文本编辑器。

处理流程
按照如下步骤进行，获取本章后续部分所需的数据。

1．在http://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip网站下载数据。

2．在电脑上用解压工具对vehicles.csv文件进行解压，然后把数据移动到你代码的目录下。

3．花一点时间，用微软的Excel或者Google的Spreadsheet或者某个简单的文本编辑器打开解压后的vehicles.csv文件。逗号分隔（csv）的文件是一种很容易处理的文件，这种文件可以用一些很基础而且免费的工具展示和处理。文件打开后，你可以先看看这份即将要处理的数据，找找感觉。

4．浏览网站http://www.fueleconomy.gov/feg/ws/index.shtml#vehicle。

5．选择vehicle下面数据描述的部分，并将它们复制粘贴到你本地的一个文本文件中。不要包含emissions部分。把这份文件存在你的工作目录下，命名为varlabels.txt。这份文件的头5行如下。

   atvtype - type of alternative fuel or advanced technologyvehiclebarrels08 - annual petroleum consumption in barrels forfuelType1 (1)barrelsA08 - annual petroleum consumption in barrels forfuelType2 (1)charge120 - time to charge an electric vehicle in hours at120 Vcharge240 - time to charge an electric vehicle in hours at240 V

e7919665c4bc07f3463b71cd7001df00b557a33a

为了你的方便，这份文件已经包含在本章的代码库中。
工作原理
一开始的这些部分，没有太多需要解释的。但是要注意的是，我们这里开始的相对比较简单。在一些数据科学项目中，你是无法如此容易地获取和观察数据的。

为了你的第一个项目准备好R
为完成后续的工作，你需要在电脑上安装一个R的环境（基础的R或者RStudio都可以，但是我们强烈建议你安装强大而免费的RStudio），并且已经在电脑里保存了汽车燃料效率的数据集。请确保你的电脑里已经包含上述本次分析所需要的所有内容。

准备工作
我们需要连接到互联网，而且我们假设你的平台上已经安装了RStudio，安装的过程在前一章已经提供了。

处理流程
如果你正在使用RStudio，只需执行以下三步。

1．打开RStudio。

2．在R的命令窗口，安装这个项目需要的R包：install.packages("plyr") install.packages("ggplot2")install.packages("reshape2")

3．载入这些R包：library(plyr) library(ggplot2) library(reshape2)

工作原理
R的优点在于其社区以及该社区围绕R语言所开发的各种功能的包，这些包对于R社区的所有成员都是可以获取的。目前有4 000多个包，这些包可以令你的数据分析任务变得容易很多。

Hadley Wickham博士是R社区中非常有影响力的成员。他已经产出了一大批优质并且经常被使用的R包。在本章中，你会初步使用他的两大杀器：plyr以及ggplot2。此外，你还会使用第三个包：reshape2。plyr用于对数据集进行分裂——合并的分析，本章稍后会解释它是怎么工作的。ggplot2会使复杂数据的可视化变得更容易。

参考资料