Python中Excel文件的批量合并和拆分

本文主要是介绍Python中Excel文件的批量合并和拆分，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Python中Excel文件的批量合并和拆分

在Python中处理Excel文件的批量合并和拆分任务，通常涉及使用pandas、openpyxl和pathlib等库。以下是详细的说明，包括如何安装这些库，主要功能，API的具体用法，以及高级用法和示例。

1. 库概述

1.1 `pandas`

主要功能：数据处理和分析，支持读取、合并、拆分Excel文件。
适用场景：数据分析、批量处理、文件合并和拆分。

1.2 `openpyxl`

主要功能：处理.xlsx文件，支持读取、修改、格式化和写入。
适用场景：对Excel文件进行高级操作，如格式化和复杂的写入操作。

1.3 `pathlib`

主要功能：操作文件系统路径，提供更高级的路径操作功能。
适用场景：处理文件路径、批量文件操作。

2. 库的安装

安装pandas和openpyxl：

pip install pandas openpyxl

pathlib是Python标准库的一部分，不需要额外安装。

3. `pathlib`库详解

pathlib提供了面向对象的文件和路径操作功能。以下是主要类及其使用方法。

3.1 `Path`类

Path类是pathlib的核心类，表示文件系统中的路径。

3.1.1 构造函数

from pathlib import Path# 创建路径对象
p = Path('data')

3.1.2 常用方法

resolve()：返回路径的绝对路径。
```
abs_path = p.resolve()
print(abs_path)
```
exists()：检查路径是否存在。
```
exists = p.exists()
print(exists)
```
is_file()：检查路径是否为文件。
```
is_file = p.is_file()
print(is_file)
```
is_dir()：检查路径是否为目录。
```
is_dir = p.is_dir()
print(is_dir)
```

mkdir(parents=False, exist_ok=False)：创建目录。

p.mkdir(parents=True, exist_ok=True)  # 创建目录及其父目录

rmdir()：删除目录（目录必须为空）。
```
p.rmdir()  # 删除目录
```

glob(pattern)：按模式匹配路径。

for file in p.glob('*.xlsx'):print(file)

match(pattern)：检查路径是否符合模式。

if p.match('*.xlsx'):print("This is an Excel file")

iterdir()：列出目录中的所有文件和子目录。
```
for item in p.iterdir():print(item)
```

joinpath(*args)：拼接路径。

new_path = p.joinpath('subdir', 'file.xlsx')
print(new_path)

3.2 `PurePath`类

PurePath类提供了路径操作功能，但不涉及实际的文件系统操作。它是一个抽象类，不能直接用于文件操作。PurePath用于在不访问文件系统的情况下处理路径字符串。

3.2.1 主要子类

PurePath：基本的纯路径操作类。
PurePosixPath：POSIX系统（如Linux和macOS）的路径操作类。
PureWindowsPath：Windows系统的路径操作类。

3.2.2 示例

from pathlib import PurePath# 创建PurePath对象
p = PurePath('data', 'file.xlsx')print(p.parts)   # ('data', 'file.xlsx')
print(p.name)    # 'file.xlsx'
print(p.suffix)  # '.xlsx'

3.3 `Path`和`PurePath`的区别和联系

Path：用于实际的文件系统操作，支持文件和目录的创建、删除、移动、查找等操作。Path类在POSIX和Windows系统中有不同的实现，分别是PosixPath和WindowsPath。
PurePath：仅用于路径的字符串操作，不涉及实际的文件系统操作。它提供了一些基本的路径操作功能，如拼接路径、分离路径组件等。PurePath的子类PurePosixPath和PureWindowsPath分别用于POSIX和Windows系统的路径字符串操作。

示例对比：

from pathlib import Path, PurePath# Path示例
p1 = Path('data', 'file.xlsx')
print(p1.resolve())   # 获取绝对路径
print(p1.exists())    # 检查路径是否存在# PurePath示例
p2 = PurePath('data', 'file.xlsx')
print(p2.parts)       # ('data', 'file.xlsx')
print(p2.name)        # 'file.xlsx'

4. 批量合并Excel文件

4.1 使用`pandas`批量合并Excel文件

示例

假设有多个Excel文件：file1.xlsx、file2.xlsx、file3.xlsx，每个文件都包含相同结构的数据，我们要将它们合并为一个文件。

import pandas as pd
from pathlib import Path# 获取所有Excel文件的路径
file_paths = Path('data').glob('*.xlsx')# 读取并合并所有Excel文件
data_frames = [pd.read_excel(file, engine='openpyxl') for file in file_paths]
combined_df = pd.concat(data_frames, ignore_index=True)# 保存合并后的DataFrame到一个新的Excel文件
combined_df.to_excel('combined.xlsx', index=False)

4.2 使用`openpyxl`进行合并

示例

如果需要对合并过程中的格式进行控制，可以使用openpyxl。

from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from pathlib import Path
import pandas as pd# 创建一个新的工作簿
wb = Workbook()
ws = wb.active
ws.title = "Combined Data"# 获取所有Excel文件的路径
file_paths = Path('data').glob('*.xlsx')# 读取并合并所有Excel文件
for file in file_paths:df = pd.read_excel(file, engine='openpyxl')# 将DataFrame中的数据添加到工作表中for row in dataframe_to_rows(df, index=False, header=True):ws.append(row)# 保存合并后的工作簿
wb.save('combined_openpyxl.xlsx')

5. 批量拆分Excel文件

5.1 使用`pandas`批量拆分Excel文件

示例

将一个大Excel文件large_file.xlsx拆分为每个包含200行数据的小文件。

import pandas as pd# 读取大Excel文件
df = pd.read_excel('large_file.xlsx', engine='openpyxl')# 拆分数据
chunk_size = 200
num_chunks = (len(df) + chunk_size - 1) // chunk_sizefor i in range(num_chunks):start_row = i * chunk_sizeend_row = min((i + 1) * chunk_size, len(df))chunk_df = df.iloc[start_row:end_row]# 保存拆分后的DataFrame到新的Excel文件chunk_df.to_excel(f'chunk_{i + 1}.xlsx', index=False)

5.2 使用`openpyxl`进行拆分

示例

对拆分后的文件进行格式化，如设置标题行的字体为加粗，并保存每个拆分后的文件。

from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font
import pandas as pd# 读取大Excel文件
df = pd.read_excel('large_file.xlsx', engine='openpyxl')# 拆分数据
chunk_size = 200
num_chunks = (len(df) + chunk_size - 1) // chunk_sizefor i in range(num_chunks):start_row = i * chunk_sizeend_row = min((i + 1) * chunk_size, len(df))chunk_df = df.iloc[start_row:end_row]# 创建一个新的工作簿wb = Workbook()ws = wb.activews.title = "Data"# 添加数据到工作表for row in dataframe_to_rows(chunk_df, index=False, header=True):ws.append(row)# 设置标题行的字体为加粗for cell in ws[1]:cell.font= Font(bold=True)# 保存拆分后的工作簿wb.save(f'chunk_{i + 1}_openpyxl.xlsx')

6. 数据清理和统计计算

6.1 数据清理

在写入Excel文件前进行数据清理，确保数据质量。

示例

import pandas as pd# 读取数据
df = pd.read_excel('data.xlsx', engine='openpyxl')# 过滤掉不符合条件的数据
df = df[df['Column'] > 0]# 保存清理后的DataFrame
df.to_excel('cleaned_data.xlsx', index=False)

6.2 统计计算

在处理数据时，有时需要进行统计计算，如求和、平均值等。

示例

import pandas as pd# 读取数据
df = pd.read_excel('data.xlsx', engine='openpyxl')# 计算列的总和
total_sum = df['Column'].sum()
print(f"Total Sum: {total_sum}")# 计算列的平均值
average_value = df['Column'].mean()
print(f"Average Value: {average_value}")# 计算列的最大值和最小值
max_value = df['Column'].max()
min_value = df['Column'].min()
print(f"Max Value: {max_value}")
print(f"Min Value: {min_value}")

这些示例展示了如何使用pathlib、pandas和openpyxl来处理Excel文件的批量合并和拆分任务，提供了清晰的步骤和代码示例。希望这些信息对你有帮助！

这篇关于Python中Excel文件的批量合并和拆分的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python中Excel文件的批量合并和拆分

Python中Excel文件的批量合并和拆分

1. 库概述

1.1 pandas

1.2 openpyxl

1.3 pathlib

2. 库的安装

3. pathlib库详解

3.1 Path类

3.1.1 构造函数

3.1.2 常用方法

3.2 PurePath类

3.2.1 主要子类

3.2.2 示例

3.3 Path和PurePath的区别和联系

4. 批量合并Excel文件

4.1 使用pandas批量合并Excel文件

示例

4.2 使用openpyxl进行合并

示例

5. 批量拆分Excel文件

5.1 使用pandas批量拆分Excel文件

示例

5.2 使用openpyxl进行拆分

示例

6. 数据清理和统计计算

6.1 数据清理

示例

6.2 统计计算

示例

相关文章

1.1 `pandas`

1.2 `openpyxl`

1.3 `pathlib`

3. `pathlib`库详解

3.1 `Path`类

3.2 `PurePath`类

3.3 `Path`和`PurePath`的区别和联系

4.1 使用`pandas`批量合并Excel文件

4.2 使用`openpyxl`进行合并

5.1 使用`pandas`批量拆分Excel文件

5.2 使用`openpyxl`进行拆分