Datawhale《动手学数据分析》Task01:数据加载及探索性数据分析笔记1

本文主要是介绍Datawhale《动手学数据分析》Task01:数据加载及探索性数据分析笔记1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 第一章:数据载入及初步观察

1.1 载入数据

数据集:kaggle泰坦尼克数据集

数据集下载 Titanic - Machine Learning from Disaster | Kaggle

任务一:导入numpy和pandas

import numpy as np
import pandas as pd

任务二:载入数据

相对路径需要以当前文件所处目录为基准,所以使用代码查看当前所处文件夹的绝对路径。

import os
path1 = os.path.abspath('.')   #所处文件夹的绝对路径
print(path1)
path2 = os.path.abspath('..')  #所处文件夹上一级的绝对路径
print(path2)
E:\emmmmmm\Analysis\jupyter-notebook
E:\emmmmmm\Analysis

(1) 使用相对路径载入数据

#相对路径三种方式
dftrain0 = pd.read_csv(r"..\titanic\train.csv")
dftrain01 = pd.read_csv("..\\titanic\\train.csv")
dftrain02 = pd.read_csv("../titanic/train.csv")

(2) 使用绝对路径载入数据

# 绝对路径三种方式
dftrain1 = pd.read_csv(r"E:\emmmmmm\Analysis\titanic\train.csv")
dftrain11 = pd.read_csv("E:\\emmmmmm\\Analysis\\titanic\\train.csv")
dftrain12 = pd.read_csv("E:/emmmmmm/Analysis/titanic/train.csv")

【思考】

知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同

csv默认制表符为“,”,table默认制表符为“\t”

pd.read_csv()

pd.read_table()

 #一个举例

如果想让他们效果一样,需要怎么做?

#指定分隔符
pd.read_table('', sep=',')

了解一下'.tsv'和'.csv'的不同,如何加载这两个数据集?

.tsv使用\t作为分隔符,.csv使用,作为分隔符。

任务三:每1000行为一个数据模块,逐块读取

dftrain1000 = pd.read_csv(r"..\titanic\train.csv",chunksize=1000)
for chunk in dftrain1000:print(type(chunk))   #<class 'pandas.core.frame.DataFrame'>print(len(chunk))    #891print(chunk)#此数据集行为数不足1000

任务四:将表头改成中文,索引改为乘客ID

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

colnames=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
dftrain = pd.read_csv(r"..\titanic\train.csv",names=colnames,index_col='乘客ID')
dftrain.head()

1.2 初步观察

导入数据后,你可能要对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等

任务一:查看数据的基本信息

print(dftrain.describe())     #整体描述
print(dftrain.info())         #获取摘要
print(dftrain.columns)        #列标签
print(dftrain.shape)          #行列数

任务二:观察表格前10行的数据和后15行的数据

#观察表格前10行的数据
colnames=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
dftrain = pd.read_csv(r"..\titanic\train.csv",names=colnames,index_col='乘客ID')
dftrain.head(10)

#观察表格后15行的数据
colnames=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
dftrain = pd.read_csv(r"..\titanic\train.csv",names=colnames,index_col='乘客ID')
dftrain.tail(15)

任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

dftrain.isnull().head()

1.3 保存数据

任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv

dftrain.to_csv("train_chinese.csv",encoding='GBK')

1.4 知道你的数据叫什么

任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。

DateFrame可理解为表格,Series为单独的行或列

#Series举例
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1

 

#DataFrame举例
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
example_2

 

任务二:根据上节课的方法载入"train.csv"文件

colnames=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
df = pd.read_csv(r"..\titanic\train.csv",names=colnames,index_col='乘客ID')

任务三:查看DataFrame数据的每列的名称

df.columns
 

 任务四:查看"Cabin"这列的所有值

print(df['Cabin'])
print(df.Cabin)

 

 

这篇关于Datawhale《动手学数据分析》Task01:数据加载及探索性数据分析笔记1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/184700

相关文章

MyBatis延迟加载与多级缓存全解析

《MyBatis延迟加载与多级缓存全解析》文章介绍MyBatis的延迟加载与多级缓存机制,延迟加载按需加载关联数据提升性能,一级缓存会话级默认开启,二级缓存工厂级支持跨会话共享,增删改操作会清空对应缓... 目录MyBATis延迟加载策略一对多示例一对多示例MyBatis框架的缓存一级缓存二级缓存MyBat

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很