Python pandas库自学超详细教程

2025-08-01 20:50

本文主要是介绍Python pandas库自学超详细教程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换...

一、什么是Pandas库

(1)、Pandas 应用

Pandas 可以从各种文件格式比如 CSV、jsON、SQL、Excel 导入数据。

Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

(2)、Pandas 功能

Pandas 是数据分析的利器,它不仅提供了高效、灵活的数据结构,还能帮助你以极低的成本完成复杂的数据操作和分析任务。

Pandas 提供了丰富的功能,包括:

  • 数据清洗:处理缺失数据、重复数据等。
  • 数据转换:改变数据的形状、结构或格式。
  • 数据分析:进行统计分析、聚合、分组等。
  • 数据可视化:通过整合 Matplotlib 和 Seaborn 等库,可以进行数据可视化。

(3)、数据结构

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。

  • Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。

  • DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

二、安装pandas库

(1)、在终端中运行

pip install pandas

(2)、导入Pandas库并重命名为pd

import pandas as pd
# 查看pandas版本
print(pd.__version__)

输出: 2.2.3

三、操作教学

1.基础操作

我想存储一些人的信息和对应的数据

import pandas as pd
df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie"],
        "Age": [25, 30, 35],
        "City": ["New York", "Los Angeles", "Chicago"]
    }
)
print(df)

打印的结果:

Python pandas库自学超详细教程

DataFrame是一个二维数据结构,可以存储 不同类型的 (包括字符、整数、浮点值、 分类数据等)。它类似于电javascript子表格,每一行都有自己的列标签和值

2.拿取指定列的数据

print(df['City']) 

打印的结果:

Python pandas库自学超详细教程

3.从头开始创建DataFrame

a = pd.Series(["黑色", "红色", "白色"], name="color")
print(a)

打印的结果:

Python pandas库自学超详细教程

4.DataFraKXpcROvfLzme的统计数据

df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie"],
        "Age": [25, 30, 35],
        "City": ["New York", "Los Angeles", "Chicago"]
    }
)
print(df.describe())

结果为:

Python pandas库自学超详细教程

5.分析csv文件中的数据

csv文件内容如下: 

TABLE_SCHEMA

TABLE_NAME

ENGINE

VERSION

DATA_LENGTH

CREATE_TIME

information_schema

CHARACTER_SETS

MEMORY

10

0

2025/3/10 10:04

information_schema

COLLATIONS

MEMORY

10

0

2025/3/10 10:04

information_schema

COLUMNS

InnoDB

10

16384

 

information_schema

COLUMN_PRIVILEGES

MEMORY

10

0

2025/3/10 10:04

information_schema

ENGINES

MEMORY

10

0

2025/3/10 10:04

information_schema

EVENTS

InnoDB

10

16384

 

information_schema

FILES

MEMORY

10

0

2025/3/10 10:04

information_schema

GLOBAL_STATUS

MEMORY

10

0

2025/3/10 10:04

information_schema

GLOBAL_VARIABLES

MEMORY

10

0

2025/3/10 10:04

information_schema

KEY_COLUMN_USAGE

MEMORY

10

0

2025/3/10 10:04

只读取数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df)

结果为:

Python pandas库自学超详细教程

只想看前几行的数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.head(8))

结果为:

Python pandas库自学超详细教程

分析每列的数据类型

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.dtypes)

结果为:

Python pandas库自学超详细教程

读取更加详细的数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.info)

结果为:

Python pandas库自学超详细教程

6.excel表格的操作

与csv同理,读取方法换成read_excel()这个就可以了

import xlrd
df = pd.read_excel("C:/Users/65742/Desktop/tables.xls")
print(df)

注意: read_excel()需要依赖xlrd模块,所以需China编程要安装xlrd。

7.选择需要的列

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df['TABLE_NAME'])

结果为:

Python pandas库自学超详细教程

需要选择多个列直接使用逗号拼接在中括号里面就OK了

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df[['TABLE_NAME', 'CREATE_TIME']])

结果为:

Python pandas库自学超详细教程

查看返回数据的行数以及列数

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(KXpcROvfLzdf[['TABLE_NAME']].shape)

结果为:

Python pandas库自学超详细教程

请注意,返回的数据包括行数和列数

筛选固定条件的数据

above_0 = df[df["DATA_LENGTH"] > 0]
print(above_0)

结果为:

Python pandas库自学超详细教程

如果你想检查数据是否大于某个值:

print(df["DATA_LENGTH"] > 0)

结果为:

Python pandas库自学超详细教程

查询某个列中的多个值的数据

engine_select = df[df["ENGINE"].isin(['InnoDB', 'MEMORY'])]
print(engine_select)

df[]中放置的是列名,isin中放的是感兴趣的数据

结果为:

Python pandas库自学超详细教程

组合多个条件查询

new_result = df[(df["ENGINE"] == 'InnoDB') | (df["TABLE_NAME"] == 'FILES')]
print(new_result)

结果为:

Python pandas库自学超详细教程

如果想验证列中的数据是不是空值

create_time_not_na = df[df["CREATE_TIME"].notna()]
print(create_time_not_na)

筛选出所有“CREATE_TIME”列不为缺失值(NaN)的行,并将结果存储在一个新的 DataFrame 变量

结果为:

Python pandas库自学超详细教程

查询某列符合条件的数据,并只取该行的数据某一列

table_names = df.loc[df["DATA_LENGTH"] > 0, "TABLE_NAME"]
print(table_names)

结果为:

Python pandas库自学超详细教程

查询特定行到特定行,特定列到特定列的数据

# 查询第1到4行,第3到5列的数据
print(df.iloc[0:4, 2:5])

结果为:

Python pandas库自学超详细教程

切记:

选择数据子集时,使用方括号。[]

在这些括号内,您可以使用单个列/行标签、列表 的列/行标签、标签切片、条件表达式或 一个冒号。

使用行时选择特定行和/或列 和列名称。loc

使用 在表中的位置。iloc

您可以根据 / 为选择分配新值。lociloc

8.增加列

df = pd.read_excel("C:/Users/65742/Desktop/tables.xls", sheet_name='tables')
print(df)
df["数据长度"] = df["DATA_LENGTH"]*100  # 增加一列
print(df)

等号前面为你要新增加的列名,后面是原本存在的列名,执行之后会帮我们新建一个列名“数据长度”。

结果为:

Python pandas库自学超详细教程

且等号后面的数据是可以和其他类的数据运算或者直接运算的

9.修改列名

df = pd.read_excel("C:/Users/65742/Desktop/tables.xls", sheet_name='tables')
print(df)
c = df.renajsme(columns={"TABLE_NAME": "表名"})
print(c)

columns中键值对里面的key是原表格中的列,value是要替换的列名

结果为:

Python pandas库自学超详细教程

 修改多个列的列名

c = df.rename(columns={"TABLE_NAME": "表名", "DATA_LENGTH": "数据长度"})
print(c)

 结果为:

Python pandas库自学超详细教程

10.对数据进行分组并计算平均数

f = pd.DataFrame({
    "name": ["吴昊", '赵括', "李月荣", "吴昊", "李月荣"],
    "age": [28, 32, 35, 30, 36],
    "gender": ["男", "女", "男", "男", "女"],
    "score": [92, 85, 98, 88, 95]
})

print(f[["name","age","score"]].groupby("name").mean())

结果为:

Python pandas库自学超详细教程

到此这篇关于python pandas库自学超详细教程的文章就介绍到这了,更多相关Python pandas库内容请搜索China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程China编程(www.chinasem.cn)!

这篇关于Python pandas库自学超详细教程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1155556

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下