Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

本文主要是介绍Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

交叉表与透视表的作用

交叉表：计算一列数据对于另外一列数据的分组个数
透视表：指定某一列对另一列的关系

一、透视表

透视表是一种可以对数据动态排布并且分类汇总的表格格式。

透视表：透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数

data.pivot_table(）
DataFrame.pivot_table([], index=[])

比如：pd.pivot_table(data=df, index='date', values='values', aggfunc=np.sum) 以 date 列作为行索引对values列进行分组聚合（sum）操作。

import numpy as np
import pandas as pd# 透视表：pivot_table
# pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')date = ['2017-5-1', '2017-5-2', '2017-5-3'] * 3
rng = pd.to_datetime(date)
df = pd.DataFrame({'date': rng,'key': list('abcdabcda'),'values': np.random.rand(9) * 10})
print("df = \n", df)
print('-' * 200)# data：DataFrame对象
# values：要聚合的列或列的列表
# index：数据透视表的index，从原数据的列中筛选
# columns：数据透视表的columns，从原数据的列中筛选
# aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum)  # 也可以写 aggfunc='sum'
print("x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum) = \n", x1)
print('-' * 200)# 这里就分别以date、key共同做数据透视，值为values：统计不同（date，key）情况下values的和
# aggfunc=len(或者count)：计数
x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum)
print("x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) = \n", x2)
print('-' * 200)# 这里就分别以date、key共同做数据透视，值为values：统计不同（date，key）情况下values的长度【aggfunc=len：计数】
x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len)
print("x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len) = \n", x3)
print('-' * 200)

打印结果：

df = date key    values
0 2017-05-01   a  6.331764
1 2017-05-02   b  0.139295
2 2017-05-03   c  7.775829
3 2017-05-01   d  0.366474
4 2017-05-02   a  9.533083
5 2017-05-03   b  0.671094
6 2017-05-01   c  5.951416
7 2017-05-02   d  5.920482
8 2017-05-03   a  6.119202
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x1 = pd.pivot_table(data=df, values='values', index='date', aggfunc=np.sum) = values
date                 
2017-05-01  12.649654
2017-05-02  15.592859
2017-05-03  14.566126
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x2 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=np.sum) = values
date       key          
2017-05-01 a    6.331764c    5.951416d    0.366474
2017-05-02 a    9.533083b    0.139295d    5.920482
2017-05-03 a    6.119202b    0.671094c    7.775829
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x3 = pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len) = values
date       key        
2017-05-01 a       1.0c       1.0d       1.0
2017-05-02 a       1.0b       1.0d       1.0
2017-05-03 a       1.0b       1.0c       1.0
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Process finished with exit code 0

二、交叉表

交叉表：交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)

pd.crosstab(value1, value2)

import numpy as np
import pandas as pd# 交叉表：crosstab
# 默认情况下，crosstab计算因子的频率表，比如用于str的数据透视分析
# pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)df = pd.DataFrame({'A': [1, 2, 2, 2, 2],'B': [3, 3, 4, 4, 4],'C': [1, 1, np.nan, 1, 1]})
print("df = \n", df)
print('-' * 200)# 如果crosstab只接收两个Series，它将提供一个频率表。
# 用A的唯一值，统计B唯一值的出现次数
x1 = pd.crosstab(df['A'], df['B'])
print("pd.crosstab(df['A'], df['B']) = \n", x1)
print('-' * 200)# normalize：默认False，将所有值除以值的总和进行归一化 → 为True时候显示百分比
x2 = pd.crosstab(df['A'], df['B'], normalize=True)
print("x2 = pd.crosstab(df['A'], df['B'], normalize=True) = \n", x2)
print('-' * 200)# values：可选，根据因子聚合的值数组
# aggfunc：可选，如果未传递values数组，则计算频率表，如果传递数组，则按照指定计算
# 这里相当于以A和B界定分组，计算出每组中第三个系列C的值
x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum)
print("x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum) = \n", x3)
print('-' * 200)# margins：布尔值，默认值False，添加行/列边距（小计）
x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True)
print("x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True) = \n", x4)
print('-' * 200)

打印结果：

df = A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
pd.crosstab(df['A'], df['B']) = B  3  4
A      
1  1  0
2  1  3
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x2 = pd.crosstab(df['A'], df['B'], normalize=True) = B    3    4
A          
1  0.2  0.0
2  0.2  0.6
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x3 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum) = B    3    4
A          
1  1.0  NaN
2  1.0  2.0
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x4 = pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc=np.sum, margins=True) = B      3    4  All
A                 
1    1.0  NaN  1.0
2    1.0  2.0  3.0
All  2.0  2.0  4.0
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Process finished with exit code 0

三、案例分析

1 交叉表与透视表什么作用

探究股票的涨跌与星期几有关？

以下图当中表示，week代表星期几，1,0代表这一天股票的涨跌幅是好还是坏，里面的数据代表比例

可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例

在这里插入图片描述

2 案例分析

2.1 数据准备

准备两列数据，星期数据以及涨跌幅是好是坏数据
进行交叉表计算

# 寻找星期几跟股票张得的关系
# 1、先把对应的日期找到星期几
date = pd.to_datetime(data.index).weekday
data['week'] = date# 2、假如把p_change按照大小去分个类0为界限
data['posi_neg'] = np.where(data['p_change'] > 0, 1, 0)# 通过交叉表找寻两列数据的关系
count = pd.crosstab(data['week'], data['posi_neg'])

但是我们看到count只是每个星期日子的好坏天数，并没有得到比例，该怎么去做？

对于每个星期一等的总天数求和，运用除法运算求出比例

# 算数运算，先求和
sum = count.sum(axis=1).astype(np.float32)# 进行相除操作，得出比例
pro = count.div(sum, axis=0)

2.2 查看效果

使用plot画出这个比例，使用stacked的柱状图

pro.plot(kind='bar', stacked=True)
plt.show()

在这里插入图片描述

2.3 使用pivot_table(透视表)实现

使用透视表，刚才的过程更加简单

# 通过透视表，将整个过程变成更简单一些
data_pivot = data.pivot_table(['posi_neg'], index='week')
data_pivot.plot(kind="bar")
plt.show()

在这里插入图片描述

这篇关于Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

一、透视表

二、交叉表

三、案例分析

1 交叉表与透视表什么作用

2 案例分析

2.1 数据准备

2.2 查看效果

2.3 使用pivot_table(透视表)实现

相关文章

从基础到高级详解Go语言中错误处理的实践指南

解决docker目录内存不足扩容处理方案

使用Java填充Word模板的操作指南

利用Python操作Word文档页码的实际应用

Python的pandas库基础知识超详细教程

Python内存管理机制之垃圾回收与引用计数操作全过程

Go语言中json操作的实现

5 种使用Python自动化处理PDF的实用方法介绍

分析 Java Stream 的 peek使用实践与副作用处理方案

Python异常处理之避免try-except滥用的3个核心原则