Python pandas库自学超详细教程

本文主要是介绍Python pandas库自学超详细教程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入（CSV/Excel等）、数据结构（Series、DataFrame）、数据清洗、转换...

一、什么是Pandas库

（1）、Pandas 应用

Pandas 可以从各种文件格式比如 CSV、jsON、SQL、Excel 导入数据。

Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

（2）、Pandas 功能

Pandas 是数据分析的利器，它不仅提供了高效、灵活的数据结构，还能帮助你以极低的成本完成复杂的数据操作和分析任务。

Pandas 提供了丰富的功能，包括：

数据清洗：处理缺失数据、重复数据等。
数据转换：改变数据的形状、结构或格式。
数据分析：进行统计分析、聚合、分组等。
数据可视化：通过整合 Matplotlib 和 Seaborn 等库，可以进行数据可视化。

（3）、数据结构

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据）。

Series 是一种类似于一维数组的对象，它由一组数据（各种 Numpy 数据类型）以及一组与之相关的数据标签（即索引）组成。
DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

二、安装pandas库

(1)、在终端中运行

pip install pandas

(2)、导入Pandas库并重命名为pd

import pandas as pd
# 查看pandas版本
print(pd.__version__)

输出： 2.2.3

三、操作教学

1.基础操作

我想存储一些人的信息和对应的数据

import pandas as pd
df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie"],
        "Age": [25, 30, 35],
        "City": ["New York", "Los Angeles", "Chicago"]
    }
)
print(df)

打印的结果：

Python pandas库自学超详细教程

DataFrame是一个二维数据结构，可以存储不同类型的（包括字符、整数、浮点值、分类数据等）。它类似于电javascript子表格，每一行都有自己的列标签和值

2.拿取指定列的数据

print(df['City'])

打印的结果：

Python pandas库自学超详细教程

3.从头开始创建DataFrame

a = pd.Series(["黑色", "红色", "白色"], name="color")
print(a)

打印的结果：

Python pandas库自学超详细教程

4.DataFraKXpcROvfLzme的统计数据

df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie"],
        "Age": [25, 30, 35],
        "City": ["New York", "Los Angeles", "Chicago"]
    }
)
print(df.describe())

结果为：

Python pandas库自学超详细教程

5.分析csv文件中的数据

csv文件内容如下：

TABLE_SCHEMA	TABLE_NAME	ENGINE	VERSION	DATA_LENGTH	CREATE_TIME
information_schema	CHARACTER_SETS	MEMORY	10	0	2025/3/10 10:04
information_schema	COLLATIONS	MEMORY	10	0	2025/3/10 10:04
information_schema	COLUMNS	InnoDB	10	16384
information_schema	COLUMN_PRIVILEGES	MEMORY	10	0	2025/3/10 10:04
information_schema	ENGINES	MEMORY	10	0	2025/3/10 10:04
information_schema	EVENTS	InnoDB	10	16384
information_schema	FILES	MEMORY	10	0	2025/3/10 10:04
information_schema	GLOBAL_STATUS	MEMORY	10	0	2025/3/10 10:04
information_schema	GLOBAL_VARIABLES	MEMORY	10	0	2025/3/10 10:04
information_schema	KEY_COLUMN_USAGE	MEMORY	10	0	2025/3/10 10:04

只读取数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df)

结果为：

Python pandas库自学超详细教程

只想看前几行的数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.head(8))

结果为：

Python pandas库自学超详细教程

分析每列的数据类型

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.dtypes)

结果为：

Python pandas库自学超详细教程

读取更加详细的数据

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df.info)

结果为：

Python pandas库自学超详细教程

6.excel表格的操作

与csv同理，读取方法换成read_excel()这个就可以了

import xlrd
df = pd.read_excel("C:/Users/65742/Desktop/tables.xls")
print(df)

注意： read_excel()需要依赖xlrd模块，所以需China编程要安装xlrd。

7.选择需要的列

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df['TABLE_NAME'])

结果为：

Python pandas库自学超详细教程

需要选择多个列直接使用逗号拼接在中括号里面就OK了

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(df[['TABLE_NAME', 'CREATE_TIME']])

结果为：

Python pandas库自学超详细教程

查看返回数据的行数以及列数

df = pd.read_csv("C:/Users/65742/Desktop/tables.csv")
print(KXpcROvfLzdf[['TABLE_NAME']].shape)

结果为：

Python pandas库自学超详细教程

请注意，返回的数据包括行数和列数

筛选固定条件的数据

above_0 = df[df["DATA_LENGTH"] > 0]
print(above_0)

结果为：

Python pandas库自学超详细教程

如果你想检查数据是否大于某个值：

print(df["DATA_LENGTH"] > 0)

结果为：

Python pandas库自学超详细教程

查询某个列中的多个值的数据

engine_select = df[df["ENGINE"].isin(['InnoDB', 'MEMORY'])]
print(engine_select)

df[]中放置的是列名，isin中放的是感兴趣的数据

结果为：

Python pandas库自学超详细教程

组合多个条件查询

new_result = df[(df["ENGINE"] == 'InnoDB') | (df["TABLE_NAME"] == 'FILES')]
print(new_result)

结果为：

Python pandas库自学超详细教程

如果想验证列中的数据是不是空值

create_time_not_na = df[df["CREATE_TIME"].notna()]
print(create_time_not_na)

筛选出所有“CREATE_TIME”列不为缺失值（NaN）的行，并将结果存储在一个新的 DataFrame 变量

结果为:

Python pandas库自学超详细教程

查询某列符合条件的数据，并只取该行的数据某一列

table_names = df.loc[df["DATA_LENGTH"] > 0, "TABLE_NAME"]
print(table_names)

结果为：

Python pandas库自学超详细教程

查询特定行到特定行，特定列到特定列的数据

# 查询第1到4行，第3到5列的数据
print(df.iloc[0:4, 2:5])

结果为：

Python pandas库自学超详细教程

切记：

选择数据子集时，使用方括号。[]

在这些括号内，您可以使用单个列/行标签、列表的列/行标签、标签切片、条件表达式或一个冒号。

使用行时选择特定行和/或列和列名称。loc

使用在表中的位置。iloc

您可以根据 / 为选择分配新值。lociloc

8.增加列

df = pd.read_excel("C:/Users/65742/Desktop/tables.xls", sheet_name='tables')
print(df)
df["数据长度"] = df["DATA_LENGTH"]*100  # 增加一列
print(df)

等号前面为你要新增加的列名，后面是原本存在的列名，执行之后会帮我们新建一个列名“数据长度”。

结果为：

Python pandas库自学超详细教程

且等号后面的数据是可以和其他类的数据运算或者直接运算的

9.修改列名

df = pd.read_excel("C:/Users/65742/Desktop/tables.xls", sheet_name='tables')
print(df)
c = df.renajsme(columns={"TABLE_NAME": "表名"})
print(c)

columns中键值对里面的key是原表格中的列，value是要替换的列名

结果为：

Python pandas库自学超详细教程

修改多个列的列名

c = df.rename(columns={"TABLE_NAME": "表名", "DATA_LENGTH": "数据长度"})
print(c)

结果为：

Python pandas库自学超详细教程

10.对数据进行分组并计算平均数

f = pd.DataFrame({
    "name": ["吴昊", '赵括', "李月荣", "吴昊", "李月荣"],
    "age": [28, 32, 35, 30, 36],
    "gender": ["男", "女", "男", "男", "女"],
    "score": [92, 85, 98, 88, 95]
})

print(f[["name","age","score"]].groupby("name").mean())

结果为：

Python pandas库自学超详细教程