【python】pyarrow.parquet+pandas:读取及使用parquet文件

2024-02-16 00:04

本文主要是介绍【python】pyarrow.parquet+pandas:读取及使用parquet文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、前言
    • 1. 所需的库
    • 2. 终端指令
  • 二、pyarrow.parquet
    • 1. 读取Parquet文件
    • 2. 写入Parquet文件
    • 3. 对数据进行操作
    • 4. 导出数据为csv
  • 三、实战
    • 1. 简单读取
    • 2. 数据操作(分割feature)
    • 3. 迭代方式来处理Parquet文件
    • 4. 读取同一文件夹下多个parquet文件

  Parquet是一种用于列式存储压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrow和fastparquet。
  本文将介绍如何使用pyarrow.parquet+pandas库操作Parquet文件。

一、前言

1. 所需的库

import pyarrow.parquet as pq
import pandas as pd

  pyarrow.parquet模块,可以读取和写入Parquet文件,以及进行一系列与Parquet格式相关的操作。例如,可以使用该模块读取Parquet文件中的数据,并转换为pandas DataFrame来进行进一步的分析和处理。同时,也可以使用这个模块将DataFrame的数据保存为Parquet格式。

2. 终端指令

conda create -n DL python==3.11
conda activate DL
conda install pyarrow

pip install pyarrow

二、pyarrow.parquet

  当使用pyarrow.parquet模块时,通常的操作包括读取和写入Parquet文件,以及对Parquet文件中的数据进行操作和转换。以下是一些常见的使用方法:

1. 读取Parquet文件

import pyarrow.parquet as pqparquet_file = pq.ParquetFile('file.parquet')
data = parquet_file.read().to_pandas()
  • 使用pq.ParquetFile打开Parquet文件;
  • 使用read().to_pandas()方法将文件中的数据读取为pandas DataFrame

2. 写入Parquet文件

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pqdf = pd.DataFrame({'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']})
table = pa.Table.from_pandas(df)pq.write_table(table, 'output.parquet')
  • 将pandas DataFrame转换为Arrow的Table格式;
  • 使用pq.write_table方法将Table写入为Parquet文件。
parquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()
print(data)

在这里插入图片描述

3. 对数据进行操作

import pyarrow.parquet as pq# 读取Parquet文件
parquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()# 对数据进行筛选和转换
filtered_data = data[data['col1'] > 1]  # 筛选出col1大于1的行
print(filtered_data)
transformed_data = filtered_data.assign(col3=filtered_data['col1'] * 2)  # 添加一个新列col3,值为col1的两倍# 打印处理后的数据
print(transformed_data)

在这里插入图片描述

4. 导出数据为csv

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('output.parquet')
data = parquet_file.read().to_pandas()df = pd.DataFrame(data)
csv_path = './data.csv'
df.to_csv(csv_path)
print(f'数据已保存到 {csv_path}')

在这里插入图片描述

三、实战

1. 简单读取

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet')
data = parquet_file.read().to_pandas()df = pd.DataFrame(data)
csv_path = './data2.csv'
df.to_csv(csv_path)
print(f'数据已保存到 {csv_path}')

关于PyCharm调试操作可参照:PyCharm基础调试功能详解

在这里插入图片描述
点击右侧蓝色的View as DataFrame
在这里插入图片描述

  如图所示,feature在同一个格内,导出为:
在这里插入图片描述
注意看,省略号...位置真的就是省略号字符,没有数字,即

[0.27058824 0.         0.05882353 ... 0.47843137 0.36862745 0.97647059]

2. 数据操作(分割feature)

import pyarrow.parquet as pq
import pandas as pdparquet_file = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet')
data = parquet_file.read().to_pandas()# 将feature列中的列表拆分成单独的特征值
split_features = data['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中
data = pd.concat([data, split_features], axis=1)
print(data.head(2))
# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data1.csv'
data.to_csv(csv_path, index=False)print(f'数据已保存到 {csv_path}')
  • 调试打开:
    在这里插入图片描述
  • excel打开:
    在这里插入图片描述
  • 文件大小对比
    在这里插入图片描述

部分内容援引自博客:使用python打开parquet文件

3. 迭代方式来处理Parquet文件

  如果Parquet文件非常大,可能会占用大量的内存。在处理大型数据时,建议使用迭代的方式来处理Parquet文件,以减少内存的占用。以下是一种更加内存友好的方式来处理Parquet文件:

import pyarrow.parquet as pq
import pandas as pd
import timestart_time = time.time()  # 记录开始时间# 使用迭代器迭代读取Parquet文件中的数据
data_iterator = pq.ParquetFile('./train_parquet/part-00014-918feee1-1ad5-4b08-8876-4364cc996930-c000.snappy.parquet').iter_batches(batch_size=100)# 初始化空的DataFrame用于存储数据
data = pd.DataFrame()# 逐批读取数据并进行处理
for batch in data_iterator:# 将RecordBatch转换为Pandas DataFramedf_batch = batch.to_pandas()# 将feature列中的列表拆分成单独的特征值split_features = df_batch['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中df_batch = pd.concat([df_batch, split_features], axis=1)# 将处理后的数据追加到DataFrame中data = data._append(df_batch, ignore_index=True)# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data3.csv'
data.to_csv(csv_path, index=False)end_time = time.time()  # 记录结束时间
print(f'数据已保存到 {csv_path}')
print(f'总运行时间: {end_time - start_time} 秒')

输出:

数据已保存到 ./data3.csv
总运行时间: 4.251184940338135 秒

4. 读取同一文件夹下多个parquet文件

import os
import pyarrow.parquet as pq
import pandas as pd
import timestart_time = time.time()  # 记录开始时间folder_path = './train_parquet/'
parquet_files = [f for f in os.listdir(folder_path) if f.endswith('.parquet')]# 初始化空的DataFrame用于存储数据
data = pd.DataFrame()# 逐个读取Parquet文件中的数据并进行处理
for file in parquet_files:file_path = os.path.join(folder_path, file)data_iterator = pq.ParquetFile(file_path).iter_batches(batch_size=1024)for batch in data_iterator:# 将RecordBatch转换为Pandas DataFramedf_batch = batch.to_pandas()# 将feature列中的列表拆分成单独的特征值split_features = df_batch['feature'].apply(lambda x: pd.Series(x))# 将拆分后的特征添加到DataFrame中df_batch = pd.concat([df_batch, split_features], axis=1)# 将处理后的数据追加到DataFrame中data = data._append(df_batch, ignore_index=True)# 删除原始的feature列
data = data.drop('feature', axis=1)# 保存到csv文件
csv_path = './data.csv'
data.to_csv(csv_path, index=False)end_time = time.time()  # 记录结束时间
print(f'数据已保存到 {csv_path}')
print(f'总运行时间: {end_time - start_time} 秒')

这篇关于【python】pyarrow.parquet+pandas:读取及使用parquet文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/712934

相关文章

python如何下载网络文件到本地指定文件夹

《python如何下载网络文件到本地指定文件夹》这篇文章主要为大家详细介绍了python如何实现下载网络文件到本地指定文件夹,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下...  在python中下载文件到本地指定文件夹可以通过以下步骤实现,使用requests库处理HTTP请求,并结合o

使用Java将实体类转换为JSON并输出到控制台的完整过程

《使用Java将实体类转换为JSON并输出到控制台的完整过程》在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用JSON格式,用Java将实体类转换为J... 在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用j

Python实现获取带合并单元格的表格数据

《Python实现获取带合并单元格的表格数据》由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,所以本文我们就来聊聊如何使用Python实现获取带合并单元格的表格数据吧... 由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,现将将封装成类,并通过调用list_exc

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas

Python日期和时间完全指南与实战

《Python日期和时间完全指南与实战》在软件开发领域,‌日期时间处理‌是贯穿系统设计全生命周期的重要基础能力,本文将深入解析Python日期时间的‌七大核心模块‌,通过‌企业级代码案例‌揭示最佳实践... 目录一、背景与核心价值二、核心模块详解与实战2.1 datetime模块四剑客2.2 时区处理黄金法

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Python文件操作与IO流的使用方式

《Python文件操作与IO流的使用方式》:本文主要介绍Python文件操作与IO流的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python文件操作基础1. 打开文件2. 关闭文件二、文件读写操作1.www.chinasem.cn 读取文件2. 写

PyQt6中QMainWindow组件的使用详解

《PyQt6中QMainWindow组件的使用详解》QMainWindow是PyQt6中用于构建桌面应用程序的基础组件,本文主要介绍了PyQt6中QMainWindow组件的使用,具有一定的参考价值,... 目录1. QMainWindow 组php件概述2. 使用 QMainWindow3. QMainW