pandas---groupby高阶transform,filter,apply,agg方法

2023-10-14 05:58

本文主要是介绍pandas---groupby高阶transform,filter,apply,agg方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# 一般运用了groupby函数
order_prior.head(100)

在这里插入图片描述

# 然后对user_id进行分组,求出每一组的最大值
order_prior.groupby("user_id")["order_number"].max()
# 所求得是每一个user最大得“order_number”
# 这里也可以使用apply方法,apply里面也可以是自己定义的函数
order_prior.groupby("user_id")["order_number"].apply(lambda x : max(x))

在这里插入图片描述


# apply方法比较常用,因为可以处理多列
order_prior.groupby("user_id").apply(lambda x["order_number"], x["order_row"] : max(x["order_number"] + min(x["order_row"])))

在这里插入图片描述

# 假如是想使用多个函数,比如想求最大值,最小值等等,可以使用agg方法
def m(x):return len(x)# 使用m函数时返回该user_id下order_number的个数
order_prior.groupby("user_id")["order_number"].agg([m,"min"])
# 多个函数时是需要进行中括号的

在这里插入图片描述

# transform函数是将df进行分类,分类完之后会返回与df行数相同的series形式
# 你要求 user_id中order_number(某一列)的一个均值,那么用transform就可以把不同的user_id的order_number都转化为该组内的最大值,并且返回series形式
# 可以理解为将df进行apply方法操作后,再重新拉伸成原始数据的长度,就是将这些值一个个分配回对应的index
order_prior.user_id
# 第一列是index,后面那一列是user_id

在这里插入图片描述

# 使用transform就可以把组内所有的值都转为为最大值,记住是组内的,
# 并且返回的是与输入数据的长度相同的series形式,index也是一 一对应
order_prior.groupby('user_id')['order_number'].transform(max)
# 可以使用自定义函数
order_prior.groupby('user_id')['order_number'].transform(m)
# 所以最终的结果与上面的长度相同,并且user_id相同的,都是该user_id下的最大值

在这里插入图片描述
在这里插入图片描述

# 最后讲一下fliter函数,fliter函数就是比apply好用地方就是,apply的函数如果是判断语句的话,会输出布尔型的结果,如果使用fliter,则直接过滤掉不满足条件的数据。
# 但是fliter时只能处理df形式的,也就是列数大于1
# 这里过滤掉order_number最大值小于15的
order_prior.groupby("user_id").filter(lambda x:max(x["order_number"])<15)

在这里插入图片描述

这篇关于pandas---groupby高阶transform,filter,apply,agg方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/208609

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

JavaScript中的高级调试方法全攻略指南

《JavaScript中的高级调试方法全攻略指南》什么是高级JavaScript调试技巧,它比console.log有何优势,如何使用断点调试定位问题,通过本文,我们将深入解答这些问题,带您从理论到实... 目录观点与案例结合观点1观点2观点3观点4观点5高级调试技巧详解实战案例断点调试:定位变量错误性能分

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法

《JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法》:本文主要介绍JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法,每种方法结合实例代码给大家介绍的非常... 目录引言:为什么"相等"判断如此重要?方法1:使用some()+includes()(适合小数组)方法2

504 Gateway Timeout网关超时的根源及完美解决方法

《504GatewayTimeout网关超时的根源及完美解决方法》在日常开发和运维过程中,504GatewayTimeout错误是常见的网络问题之一,尤其是在使用反向代理(如Nginx)或... 目录引言为什么会出现 504 错误?1. 探索 504 Gateway Timeout 错误的根源 1.1 后端

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消

SpringBoot通过main方法启动web项目实践

《SpringBoot通过main方法启动web项目实践》SpringBoot通过SpringApplication.run()启动Web项目,自动推断应用类型,加载初始化器与监听器,配置Spring... 目录1. 启动入口:SpringApplication.run()2. SpringApplicat

使用Java读取本地文件并转换为MultipartFile对象的方法

《使用Java读取本地文件并转换为MultipartFile对象的方法》在许多JavaWeb应用中,我们经常会遇到将本地文件上传至服务器或其他系统的需求,在这种场景下,MultipartFile对象非... 目录1. 基本需求2. 自定义 MultipartFile 类3. 实现代码4. 代码解析5. 自定