pandas数据过滤

2024-09-09 16:28
文章标签 数据 过滤 pandas

本文主要是介绍pandas数据过滤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Pandas 数据过滤方法

Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。

1. 基于条件筛选行

可以使用布尔索引来根据条件过滤行。

import pandas as pd# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],'Age': [24, 27, 22, 32, 29],'Score': [85, 90, 78, 88, 92]}
df = pd.DataFrame(data)# 筛选 Age 大于 25 的行
filtered_df = df[df['Age'] > 25]
print(filtered_df)
2. 多条件筛选

可以使用 & (与) 和 | (或) 来结合多个条件进行筛选。

# 筛选 Age 大于 25 且 Score 大于 85 的行
filtered_df = df[(df['Age'] > 25) & (df['Score'] > 85)]
print(filtered_df)
3. 使用 isin() 方法筛选

isin() 方法用于筛选列中包含特定值的行。

# 筛选 Name 为 'Alice' 或 'Bob' 的行
filtered_df = df[df['Name'].isin(['Alice', 'Bob'])]
print(filtered_df)
4. 使用 str.contains() 筛选字符串

str.contains() 可以根据字符串的包含关系进行筛选。

# 筛选 Name 包含字母 'a' 的行
filtered_df = df[df['Name'].str.contains('a', case=False)]
print(filtered_df)
5. 使用 query() 方法筛选

query() 方法允许使用 SQL 风格的语法进行筛选。

# 使用 query 筛选 Age 大于 25 的行
filtered_df = df.query('Age > 25')
print(filtered_df)
6. 筛选缺失值

可以使用 isna()notna() 来筛选包含缺失值或非缺失值的行。

# 添加一行带有缺失值的数据
df.loc[5] = ['Frank', None, 80]# 筛选 Age 为空的行
filtered_df = df[df['Age'].isna()]
print(filtered_df)

练习题目

练习 1: 创建一个包含 Name, Age, Score 的 DataFrame,并筛选出 Age 大于 30 的行。

练习 2: 使用布尔索引筛选出 Name 为 ‘David’ 或 ‘Eva’ 的行。

练习 3: 使用 isin() 方法筛选 Age 为 22, 24 的行。

练习 4: 使用 str.contains() 方法筛选 Name 中包含字母 ‘e’ 的行。

练习 5: 使用 query() 方法筛选出 Score 大于 85 且 Age 小于 30 的行。

习题答案

答案 1:

filtered_df = df[df['Age'] > 30]

答案 2:

filtered_df = df[(df['Name'] == 'David') | (df['Name'] == 'Eva')]

答案 3:

filtered_df = df[df['Age'].isin([22, 24])]

答案 4:

filtered_df = df[df['Name'].str.contains('e', case=False)]

答案 5:

filtered_df = df.query('Score > 85 & Age < 30')

这篇关于pandas数据过滤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1151675

相关文章

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas透视表(Pivot Table)的具体使用

《Pandas透视表(PivotTable)的具体使用》透视表用于在数据分析和处理过程中进行数据重塑和汇总,本文就来介绍一下Pandas透视表(PivotTable)的具体使用,感兴趣的可以了解一下... 目录前言什么是透视表?使用步骤1. 引入必要的库2. 读取数据3. 创建透视表4. 查看透视表总结前言

pandas中位数填充空值的实现示例

《pandas中位数填充空值的实现示例》中位数填充是一种简单而有效的方法,用于填充数据集中缺失的值,本文就来介绍一下pandas中位数填充空值的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是中位数填充?为什么选择中位数填充?示例数据结果分析完整代码总结在数据分析和机器学习过程中,处理缺失数

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转