【Python】进阶学习:pandas--groupby()用法详解

2024-03-03 18:52

本文主要是介绍【Python】进阶学习:pandas--groupby()用法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

📊【Python】进阶学习:pandas–groupby()用法详解

在这里插入图片描述

🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)


🌵文章目录🌵

  • 🤔 一、为什么需要groupby()?
  • 🎯 二、groupby()的基本用法
  • 📈 三、聚合运算
  • 🛠️ 四、高级用法与技巧
    • 🔧 应用自定义函数
    • 🔄 数据转换
    • 🔍 过滤数据
  • 🛠️ 五、实际案例应用
  • 🎉 六、总结
  • 🤝 七、期待与你共同进步

  👋 欢迎来到Python进阶学习之旅!今天,我们将深入探讨pandas库中非常强大的groupby()函数。groupby()函数在数据分析和数据清洗中发挥着关键作用,能够帮助我们轻松地对数据进行分组、聚合和转换。

🤔 一、为什么需要groupby()?

  在处理大量数据时,我们经常需要按照某个或多个特征对数据进行分组,以便更好地理解数据的结构和关系。例如,我们可能希望按照年份、地区或产品类别对数据进行分组,并对每个组进行聚合运算,如求和、平均值、最大值等。这时,groupby()函数就显得非常有用。

🎯 二、groupby()的基本用法

  首先,我们需要导入pandas库,并创建一个示例数据集。然后,我们可以使用groupby()函数按照指定的列对数据进行分组。

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的GroupBy对象
print(grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2C070B8E0>

  上述代码将按照列’A’的值对DataFrame进行分组,并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。

📈 三、聚合运算

  GroupBy对象提供了多种聚合函数,如sum()mean()max()等。我们可以使用这些函数对每个组进行聚合运算。

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的对象
print(grouped)# 计算每个组的平均值
mean_grouped = grouped.mean()
print(mean_grouped)# 计算每个组的总和
sum_grouped = grouped.sum()
print(sum_grouped)

输出:

            C         D
A                      
bar  0.658173 -0.225388
foo  0.778100 -0.164148C         D
A                     
bar  1.97452 -0.676164
foo  3.89050 -0.820740

  除了内置的聚合函数外,我们还可以使用agg()函数应用自定义的聚合函数。例如,我们可以计算每个组的标准差:

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的对象
print(grouped)# 计算每个组的标准差
std_grouped = grouped.agg(np.std)
print(std_grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2F480B880>C         D
A                      
bar  0.101229  0.274698
foo  0.996597  0.812362

🛠️ 四、高级用法与技巧

  除了基本的分组和聚合操作外,groupby()还提供了许多高级功能,如应用自定义函数、转换数据等。

🔧 应用自定义函数

  我们可以使用apply()方法应用自定义函数到每个组。例如,我们可以定义一个函数来计算每个组的最大值和最小值之差:

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的对象
print(grouped)# 定义一个自定义函数,计算每个组的最大值和最小值之差
def range_diff(group):return group.max() - group.min()# 使用apply()应用自定义函数
diff_grouped = grouped.apply(range_diff)
print(diff_grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002ACBD83AA60>C         D
A                      
bar  2.497695  1.086924
foo  2.826518  2.063781

🔄 数据转换

  groupby()还提供了transform()方法,用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的对象
print(grouped)# 使用transform()方法将每个组的平均值广播到原始数据的每一行
mean_transformed = grouped['C'].transform('mean')
print(mean_transformed)# 将转换后的平均值添加到原始DataFrame中
df['C_mean'] = mean_transformed
print(df)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188A56DA8E0>
0    0.344876
1   -1.358760
2    0.344876
3   -1.358760
4    0.344876
5   -1.358760
6    0.344876
7    0.344876
Name: C, dtype: float64A         C         D    C_mean
0  foo  0.783914 -1.027288  0.344876
1  bar -2.072893 -0.972087 -1.358760
2  foo  0.035637 -0.315908  0.344876
3  bar -1.953068  0.409697 -1.358760
4  foo  0.576048 -0.258289  0.344876
5  bar -0.050318 -1.115734 -1.358760
6  foo  0.093456  0.106227  0.344876
7  foo  0.235322  1.365150  0.344876

🔍 过滤数据

  除了聚合和转换外,我们还可以使用filter()方法根据条件过滤出满足条件的组。

import numpy as np
import pandas as pd# 创建一个简单的DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],'C': np.random.randn(8),'D': np.random.randn(8)
}
df = pd.DataFrame(data)# 使用groupby按列'A'进行分组
grouped = df.groupby('A')# 打印分组后的对象
print(grouped)# 使用filter()方法过滤出满足条件的组(例如,组的大小大于3)
filtered_groups = grouped.filter(lambda x: len(x) > 3)
print(filtered_groups)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015ADE2FA940>A         C         D
0  foo  1.967217  0.005976
2  foo  0.950149  0.098143
4  foo  0.568101  1.461587
6  foo -1.905337 -1.106591
7  foo -0.168686  0.692850

🛠️ 五、实际案例应用

  最后,让我们通过一个实际案例来演示如何应用groupby()函数进行数据分析和清洗。

  假设我们有一个包含销售数据的DataFrame,其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组,并计算每个组的总销售额。

import numpy as np
import pandas as pd# 创建一个包含销售数据的DataFrame
sales_data = {'date': pd.date_range(start='2023-01-01', periods=100),'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),'sales': np.random.rand(100) * 1000
}
df_sales = pd.DataFrame(sales_data)# 按地区和产品名称对数据进行分组,并计算总销售额
grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()# 打印分组后的销售额
print(grouped_sales)

输出:

   region    product        sales
0    East  Product A  2728.679432
1    East  Product B  1847.966730
2    East  Product C  4518.356763
3   North  Product A  5882.374531
4   North  Product B  5519.364196
5   North  Product C  4229.953852
6   South  Product A  5303.784425
7   South  Product B  2321.080682
8   South  Product C  4239.002167
9    West  Product A  1689.650513
10   West  Product B  4002.790867
11   West  Product C  4894.553548

  在这个案例中,我们首先创建了一个包含销售数据的DataFrame。然后,我们使用groupby()函数按地区和产品名称对数据进行分组,并使用sum()函数计算每个组的总销售额。最后,我们使用reset_index()函数将结果转换为一个新的DataFrame,并打印出来。

🎉 六、总结

  groupby()函数是pandas库中一个非常强大的工具,它允许我们按照一个或多个特征对数据进行分组,并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()函数的用法,我们可以更高效地处理和分析大量数据,从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()函数!

🤝 七、期待与你共同进步

  🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏

  🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟

  📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬

  💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉

  🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉

这篇关于【Python】进阶学习:pandas--groupby()用法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/770562

相关文章

git stash命令基本用法详解

《gitstash命令基本用法详解》gitstash是Git中一个非常有用的命令,它可以临时保存当前工作区的修改,让你可以切换到其他分支或者处理其他任务,而不需要提交这些还未完成的修改,这篇文章主要... 目录一、基本用法1. 保存当前修改(包括暂存区和工作区的内容)2. 查看保存了哪些 stash3. 恢

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

java String.join()方法实例详解

《javaString.join()方法实例详解》String.join()是Java提供的一个实用方法,用于将多个字符串按照指定的分隔符连接成一个字符串,这一方法是Java8中引入的,极大地简化了... 目录bVARxMJava String.join() 方法详解1. 方法定义2. 基本用法2.1 拼接

Java中的record使用详解

《Java中的record使用详解》record是Java14引入的一种新语法(在Java16中成为正式功能),用于定义不可变的数据类,这篇文章给大家介绍Java中的record相关知识,感兴趣的朋友... 目录1. 什么是 record?2. 基本语法3. record 的核心特性4. 使用场景5. 自定

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

MyBatis编写嵌套子查询的动态SQL实践详解

《MyBatis编写嵌套子查询的动态SQL实践详解》在Java生态中,MyBatis作为一款优秀的ORM框架,广泛应用于数据库操作,本文将深入探讨如何在MyBatis中编写嵌套子查询的动态SQL,并结... 目录一、Myhttp://www.chinasem.cnBATis动态SQL的核心优势1. 灵活性与可

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、