Python中CSV文件处理全攻略

2025-05-19 02:50
文章标签 python 处理 csv 全攻略

本文主要是介绍Python中CSV文件处理全攻略,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Python中CSV文件处理全攻略》在数据处理和存储领域,CSV格式凭借其简单高效的特性,成为了电子表格和数据库中常用的文件格式,Python的csv模块为操作CSV文件提供了强大的支持,本文将深入...

一、CSV 格式简介

CSV 格式是一种以纯文本形式存储表格数据的文件格式,用特定分隔符(通常是逗号)隔开不同字段。例如,一条包含姓名、年龄和城市的记录,在 CSV 文件中可能表示为"Alice,25,New York"。虽然 CSV 格式被广泛应用,但由于缺乏统一标准,不同应用程序生成的 CSV 文件在格式细节上可能存在差异,这给数据处理带来了挑战。不过,其大致结构相似,使得编写通用处理模块成为可能。

二、csv模块核心内容

(一)模块函数

  • csv.reader(csvfile, dialect='excel', \**fmtparams):该函数用于创建一个reader对象,从给定的csvfile中读取数据。csvfile可以是文件对象或包含字符串的可迭代对象,打开文件时需设置newline=''dialect参数指定 CSV 变种,默认为'excel',也可通过list_dialects()函数获取已注册变种名称或自定义Dialect子类实例来设置。fmtparams用于覆盖当前变种的单个格式参数。例如:
import csv
with open('eggs.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(', '.join(row))
  • csv.writer(csvfile, dialect='excel', \**fmtparams):返回一个writer对象,将数据转换为带分隔符的http://www.chinasem.cn字符串写入csvfile。csvfile需具有write()方法,打开文件时同样要设置newline=''。dialect和fmtparams作用与reader函数类似。示例如下:
import csv
with open('eggs.csv', 'w', newline='') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ', quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['Spam'] * 5 + ['Baked Beans'])
    spamwriter.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam'])
  • 其他函数:csv.register_dialect(name, [dialect, **fmtparams])用于注册自定义 CSV 变种;csv.unregister_dialect(name)删除已注册变种;csv.get_dialect(name)获取指定变种;csv.list_dialects()返回所有已注册变种名称;csv.field_size_limit([new_ljavascriptimit])获取或设置解析器允许的最大字段大小。

(二)模块类

  • csv.DictReader(f, fieldnames=None, restkey=None, restval=None, dialect='excel', \*args, \**kwds):创建的对象类似常规reader,但将每行数据映射为字典,键由fieldnames指定。若fieldnames未提供,则文件第一行数据用作字段名并从结果中去除;若提供了,则第一行数据包含在结果中。多余字段数据会存储在以restkey为键的列表中(默认为None),缺失字段用restval填充(默认为None)。例如:
import csv
with open('names.csv', newline='') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        print(row['first_name'], row['last_name'])
  1. csv.Dialect:是一个容器类,通过其属性定义 CSV 文件的格式处理方式,如双引号、空白符、分隔符等的处理规则。不同的Dialect子类对应不同的 CSV 文件格式变种,例如csv.excel定义了 Excel 生成的 CSV 文件的常规属性,csv.excel_tab对应 Excel 生成的制表符分隔的 CSV 文件,csv.Unix_dialect适用于 UNIX 系统生成的 CSV 文件(以'\n'为换行符,所有字段用引号包围) 。
  2. csv.Sniffer:用于推断 CSV 文件的格式。sniff(sample, delimiters=None)方法分析给定样本数据,返回包含格式参数的Dialect子类;has_header(sample)方法判断样本数据首行是否为列标题,但这是一个粗略的启发式方法,可能出现误判。使用示例:
with open('example.csv', newline='') as csvfile:
    dialect = csv.Sniffer().sniff(csvfile.read(1024))
    csvfile.seek(0)
    reader = csv.reader(csvfile, dialect)
    # 处理CSV文件内容

(三)模块常量

csv模块定义了多个常量,用于控制writerreader对象的引号处理行为。如csv.QUOTE_ALL指示writer给所有字段加引号;csv.QUOTE_MINIMAL仅为包含特殊字符的字段加引号;csv.QUOTE_NONNUMERIC为非数字字段加引号,并让reader将未加引号的字段转换为float类型;csv.QUOTE_NONE不使用引号引出字段,输出数据中定界符前需加转义符;csv.QUOTE_NOTNULL为不为None的字段加引号;csv.QUOTE_STRINGS总是为字符串字段加引号 。需要注意的是,在 python 3.12 中,QUOTE_NOTNULLQUOTE_STRINGSreader对象的行为存在 bug,该问题在 Python 3.13 中得到修复。

(四)模块异常

csv.Error异常由csv模块中发生错误的函数抛出,在编写代码处理 CSV 文件时,可通过捕获该异常来处理可能出现的错误,如文件格式错误、字段解析错误等。例如:

import csv, sys
filename ='some.csv'
with open(filename, newline='') as f:
    reader = csv.reader(f)
    try:
        for row in reader:
            print(row)
    except csv.Error as e:
        sys.exit(f'file {filename}, line {reader.line_num}: {e}')

三、变种与格式参数

不同的 CSV 文件可能在分隔符、引号处理、行终止符等格式上存在差异,csv模块通过Dialect类的子类和格式参数来应对这些差异。Dialect类支持以下属性:

属性名描述默认值
delimiter字段分隔符,单字符','
doublequote控制字段中引号字符的引出方式,True表示双写引号字符,False表示在引号字符前加转义符True
escapechar用于转义定界符(quotingQUOTE_NONE时)或引号字符(doublequoteFalse时)的单字符None(禁用转义)
lineterminatorwriter产生的行的结尾字符'\r\n'
quotechar用于包住含有特殊字符字段的单字符'"'
quoting控制writer生成引号和reader识别引号的时机,可设为QUOTE_*常量QUOTE_MINIMAL
skipinitialspace是否忽略紧跟在分隔符后的空格False
strict输入错误的 CSV 时是否抛出Error异常False

在创建readerwriter对象时,可以指定dialect参数(字符串或Dialect子类实例),也可以单独指定格式参数来覆盖dialect中的默认设置。

四、Reader 对象与 Writer 对象

(一)Reader 对象

Reader对象(包括DictReader实例和reader()函数返回的对象)用于读取 CSV 数据。它具有以下方法和属性:

  1. 方法__next__()方法返回可迭代对象的下一行数据,根据当前Dialect解析,可通过next(reader)调用。
  2. 属性dialect属性为只读,用于获取当前解析使用的变种描述;line_num属性记录源迭代器已读取的行数,与返回的记录数可能不同,因为记录可能跨越多行。DictReader对象还有fieldnames属性,用于获取字段名称,若创建对象时未传入,则在首次访问或读取第一条记录时初始化。

(二)Writer 对象

Writer对象(包括DictWriter实例和writer()函数返回的对象)负责将数据写入 CSV 文件。其方法和属性如下:

  1. 方法writeroandroidw(row)方法将row写入文件对象,按当前Dialect格式化,返回底层文件对象write方法的返回值;writerows(rows)方法将rows中的所有元素写入文件对象。DictWriter对象的writeheader()方法用于写入一行字段名称(构造函数中指定),返回csvwriter.writerow()方法的返回值。
  2. 属性dialect属性为只读,供writer使用,用于获取当前写入使用的变种描述。

五、实际应用示例

(一)基本读写操作

  1. 读取 CSV 文件:使用csv.reader读取文件,逐行打印数据。
import csv
with open('some.csv', newline='') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)
  • 写入 CSV 文件:利用csv.writer将数据写入文件。
import csv
with open('some.csv', 'w', newline='') as f:
  xWkcbS  writer = csv.writer(f)
    writer.writerows([['data1', 'data2'], ['data3', 'data4']])

(二)处理特殊格式文件

处理非标准 CSV 格式文件时,需根据文件格式特点设置相应的参数。例如,处理以冒号为分隔符且不使用引号的文件:

import csv
with open('passwd', newline='') as f:
    reader = csv.reader(f, delimiter=':', quoting=csv.QUOTE_NONE)
    for row in reader:
        print(row)

(三)注册自定义变种

若项目中频繁使用特定格式的 CSV 文件,可注册自定义变种。例如:

import csv
csv.register_dialect('unixpwd', delimiter=':', quoting=csv.QUOTE_NONE)
with open('passwd', newline='') as f:
    reader = csv.reader(f, 'unixpwd')

(四)处理字符串数据

虽然csv模块不直接支持解析字符串,但可以通过将字符串包装成可迭代对象来处理。例如http://www.chinasem.cn

import csv
for row in csv.reader(['one,two,three']):
    print(row)

总结

Python 的csv模块为 CSV 文件处理提供了全面且灵活的工具。通过掌握csv模块的函数、类、常量以及变种与格式参数的设置,开发者能够高效地读取、写入和处理各种格式的 CSV 文件。在实际应用中,要根据 CSV 文件的具体格式特点选择合适的方法和参数,同时注意处理可能出现的错误情况,确保数据处理的准确性和稳定性。

以上就是Python中CSV文件处理全攻略的详细内容,更多关于Python CSV文件处理的资料请关注China编程(www.chinasem.cn)其它相关文章!

这篇关于Python中CSV文件处理全攻略的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154663

相关文章

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

Go异常处理、泛型和文件操作实例代码

《Go异常处理、泛型和文件操作实例代码》Go语言的异常处理机制与传统的面向对象语言(如Java、C#)所使用的try-catch结构有所不同,它采用了自己独特的设计理念和方法,:本文主要介绍Go异... 目录一:异常处理常见的异常处理向上抛中断程序恢复程序二:泛型泛型函数泛型结构体泛型切片泛型 map三:文

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

Python中4大日志记录库比较的终极PK

《Python中4大日志记录库比较的终极PK》日志记录框架是一种工具,可帮助您标准化应用程序中的日志记录过程,:本文主要介绍Python中4大日志记录库比较的相关资料,文中通过代码介绍的非常详细,... 目录一、logging库1、优点2、缺点二、LogAid库三、Loguru库四、Structlogphp

C++,C#,Rust,Go,Java,Python,JavaScript的性能对比全面讲解

《C++,C#,Rust,Go,Java,Python,JavaScript的性能对比全面讲解》:本文主要介绍C++,C#,Rust,Go,Java,Python,JavaScript性能对比全面... 目录编程语言性能对比、核心优势与最佳使用场景性能对比表格C++C#RustGoJavapythonjav

Python海象运算符:=的具体实现

《Python海象运算符:=的具体实现》海象运算符又称​​赋值表达式,Python3.8后可用,其核心设计是在表达式内部完成变量赋值并返回该值,从而简化代码逻辑,下面就来详细的介绍一下如何使用,感兴趣... 目录简介​​条件判断优化循环控制简化​推导式高效计算​正则匹配与数据提取​性能对比简介海象运算符

python项目环境切换的几种实现方式

《python项目环境切换的几种实现方式》本文主要介绍了python项目环境切换的几种实现方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 如何在不同python项目中,安装不同的依赖2. 如何切换到不同项目的工作空间3.创建项目

python项目打包成docker容器镜像的两种方法实现

《python项目打包成docker容器镜像的两种方法实现》本文介绍两种将Python项目打包为Docker镜像的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录简单版:(一次成功,后续下载对应的软件依赖)第一步:肯定是构建dockerfile,如下:第二步