pandas中高级应用——jupyter

2024-02-28 02:40

本文主要是介绍pandas中高级应用——jupyter,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、pandas绘图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
ts=pd.Series(np.random.randn(1000),index =pd.date_range('1/2/2000',periods=1000))#随机生成1000个数据,index用pandas里日期函数,生成1000个index
ts =ts.cumsum()  #累加,一个数等于之前所有数相加,使数据变得更平滑
ts     #日期+数据  时间序列

在这里插入图片描述

ts.plot(title='pandas plot')
plt.xlabel('x')
plt.ylabel('y')

在这里插入图片描述

df=pd.DataFrame(np.random.randn(1000,4),index =pd.date_range('1/2/2000',periods=1000),columns= list('ABCD'))  #生成4个1000个数据,随时间变化
df.cumsum().plot()  #自动生成四种颜色的数据,累加使数据更光滑,多次执行变成光滑曲线

在这里插入图片描述
指定某一列为X:

df['A']=np.arange(1000)
df['C']

在这里插入图片描述

df.plot(x = 'A',y='C')  #用df里的数据画图,x轴为A,y轴为C列数据

在这里插入图片描述

df.C[:5].plot.bar(rot=20)  #画出C的前5个数据的柱状图,横坐标倾斜20°

在这里插入图片描述

df.C[:5].plot.bar(rot=20,color='purple',title='df.C5')

在这里插入图片描述

二、 数据聚合与分组运算

import numpy as np
import pandas as pd

对数据进行分组是数据分析工作的重要部分,对数据的分析,常常是对数据进行分组统计

分组运算过程: 1、确定分组键—即按照分组键进行分组 2、确定分组操作:即在每个小组上应用哪个函数或运算 3、运算结果合并

注意:分组键可以为:数组、DataFrame的某个列、字典、Seires、索引或者列的函数等等。关键要求分组键要与拆分的对象长度相同

df = pd.DataFrame({'animal': 'cat dog cat fish dog cat cat'.split(), 'size': list('SSMMMLL'),'weight': [8, 10, 11, 1, 20, 12, 12],'adult' : [False] * 5 + [True] * 2})
# ':'分隔列, .split()分隔' ',数据按顺序排列  多种表示各种数据的方式
df

在这里插入图片描述
计算每种动物的平均重量:

df.groupby('animal')['weight'].mean()   #按每种动物分组,对重量求平均值  分组标准+对组的那一项+操作

在这里插入图片描述
计算每种动物是否成年,计算其平均体重:

data = df.groupby(['animal','adult'])['weight'].mean()  #分组依据有两个
data

在这里插入图片描述

type(data)    # 双重serials序列

在这里插入图片描述
将Series转换为DataFrame

data1 = data.unstack()  #将Series转换为DataFrame
data1

在这里插入图片描述

type(data1)

在这里插入图片描述

df.groupby('animal').size() #统计以animal分组的各组的包含数量 

在这里插入图片描述

df.groupby('animal')['weight'].apply(lambda x : x - x.mean())  #用动物的体重分组,不同体重的放在不同组,每一组的数据为体重减去分组体重平均值
#自己写lambda函数,再apply应用一下

在这里插入图片描述

三、空难数据集处理

找出哪些飞机发生空难的时候,生存率最高

data = pd.read_csv('air1908.csv')
data.head()

在这里插入图片描述

data.columns

在这里插入图片描述

data.tail()

在这里插入图片描述

data.Type

在这里插入图片描述
处理nan值的处理

data[['Fatalities','Aboard','Type']].isnull().sum()

在这里插入图片描述

data = data[['Fatalities','Aboard','Type']].dropna()

处理Type数据,让其规整化

data.Type = data.Type.map(lambda x:x.split()[0]) #取以' '分隔的第一个数据为这个数据  map:映射
data

在这里插入图片描述
想统计各个品牌出现的次数

data.Type.value_counts()  #出现次数太少的去掉

在这里插入图片描述
找出高频率出现前10的品牌

top10 = data.Type.value_counts()[:10].index #切片的表示方法:取出现次数的前10个数据的index
top10

在这里插入图片描述

data.Type.isin(top10)   #成员关系判断  从品牌中找top10的数据  false:不在top10 true:在top10

在这里插入图片描述

data =data[data.Type.isin(top10)] #data中取type在top10的数据
data.Type.unique() #查看唯一值

在这里插入图片描述

data['sv'] =np.round((data.Aboard- data.Fatalities)/ data.Aboard,2) #保留两位小数
data

在这里插入图片描述
每个品牌的平均生存几率

 data[data.Type =='de']['sv'].mean() #品牌的平均死亡率

在这里插入图片描述

data.groupby('Type')['sv'].mean()

在这里插入图片描述

四、小费数据集

import seaborn as sns
import pandas as pd

tips是seaborn中的一个数据集

data = sns.load_dataset('tips')
data

在这里插入图片描述
观察哪些日子给小费

data.day.unique()

在这里插入图片描述

看看哪些餐给小费

data.time.unique()

在这里插入图片描述
计算小费比例

data['rate'] =data.tip/data.total_bill  #增加一列

观察哪个性别给的小费比例高

data.groupby('sex')['rate'].mean()

在这里插入图片描述
观察哪天给的小费比例更高

data.groupby('day')['rate'].mean()

在这里插入图片描述
观察哪天哪个性别给的小费比例更高

data.groupby(['day','sex'])['rate'].mean()

在这里插入图片描述
观察两者的区别

data.groupby(['sex','day'])['rate'].mean()

在这里插入图片描述
可视化

data.groupby(['sex','day'])['rate'].mean().plot.bar(rot=20)

在这里插入图片描述

这篇关于pandas中高级应用——jupyter的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754234

相关文章

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

Spring Boot中的YML配置列表及应用小结

《SpringBoot中的YML配置列表及应用小结》在SpringBoot中使用YAML进行列表的配置不仅简洁明了,还能提高代码的可读性和可维护性,:本文主要介绍SpringBoot中的YML配... 目录YAML列表的基础语法在Spring Boot中的应用从YAML读取列表列表中的复杂对象其他注意事项总

电脑系统Hosts文件原理和应用分享

《电脑系统Hosts文件原理和应用分享》Hosts是一个没有扩展名的系统文件,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应... Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应

Jupyter notebook安装步骤解读

《Jupyternotebook安装步骤解读》:本文主要介绍Jupyternotebook安装步骤,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、开始安装二、更改打开文件位置和快捷启动方式总结在安装Jupyter notebook 之前,确认您已安装pytho

CSS 样式表的四种应用方式及css注释的应用小结

《CSS样式表的四种应用方式及css注释的应用小结》:本文主要介绍了CSS样式表的四种应用方式及css注释的应用小结,本文通过实例代码给大家介绍的非常详细,详细内容请阅读本文,希望能对你有所帮助... 一、外部 css(推荐方式)定义:将 CSS 代码保存为独立的 .css 文件,通过 <link> 标签

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失