python的文件操作极其利用的实验,【Chapter 3.3】Python 的文件以及操作系统《利用Python进行数据分析·第2版》...

本文主要是介绍python的文件操作极其利用的实验,【Chapter 3.3】Python 的文件以及操作系统《利用Python进行数据分析·第2版》...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【Chapter 3.3】Python 的文件以及操作系统

用内建的open函数能打开、读取、写入一个文件,要给open一个相对路径或绝对路径:

In [207]: path = 'examples/segismundo.txt'

In [208]: f = open(path)

默认情况下,文件是以只读模式('r')打开的。然后,我们就可以像处理列表那样来处理这个文件句柄f了,比如对行进行迭代:

for line in f:

pass

从文件中取出的行都带有完整的行结束符(EOL),因此你常常会看到下面这样的代码(得到一组没有EOL的行):

In [209]: lines = [x.rstrip() for x in open(path)]

In [210]: lines

Out[210]:

['Sueña el rico en su riqueza,',

'que más cuidados le ofrece;',

'',

'sueña el pobre que padece',

'su miseria y su pobreza;',

'',

'sueña el que a medrar empieza,',

'sueña el que afana y pretende,',

'sueña el que agravia y ofende,',

'',

'y en el mundo, en conclusión,',

'todos sueñan lo que son,',

'aunque ninguno lo entiende.',

'']

如果使用open创建文件对象,一定要用close关闭它。关闭文件可以返回操作系统资源:

In [211]: f.close()

用with语句可以可以更容易地清理打开的文件:

In [212]: with open(path) as f:

.....: lines = [x.rstrip() for x in f]

这样可以在退出代码块时,自动关闭文件。

如果输入f =open(path,'w'),就会有一个新文件被创建在examples/segismundo.txt,并覆盖掉该位置原来的任何数据。另外有一个x文件模式,它可以创建可写的文件,但是如果文件路径存在,就无法创建。表3-3列出了所有的读/写模式。

54bfcd31ad21

i

对于可读文件,一些常用的方法是read、seek和tell。read会从文件返回字符。字符的内容是由文件的编码决定的(如UTF-8),如果是二进制模式打开的就是原始字节:

In [213]: f = open(path)

In [214]: f.read(10)

Out[214]: 'Sueña el r'

In [215]: f2 = open(path, 'rb') # Binary mode

In [216]: f2.read(10)

Out[216]: b'Sue\xc3\xb1a el '

read模式会将文件句柄的位置提前,提前的数量是读取的字节数。tell可以给出当前的位置:

In [217]: f.tell()

Out[217]: 11

In [218]: f2.tell()

Out[218]: 10

尽管我们从文件读取了10个字符,位置却是11,这是因为用默认的编码用了这么多字节才解码了这10个字符。你可以用sys模块检查默认的编码:

In [219]: import sys

In [220]: sys.getdefaultencoding()

Out[220]: 'utf-8'

seek将文件位置更改为文件中的指定字节:

In [221]: f.seek(3)

Out[221]: 3

In [222]: f.read(1)

Out[222]: 'ñ'

最后,关闭文件:

In [223]: f.close()

In [224]: f2.close()

向文件写入,可以使用文件的write或writelines方法。例如,我们可以创建一个无空行版的prof_mod.py:

In [225]: with open('tmp.txt', 'w') as handle:

.....: handle.writelines(x for x in open(path) if len(x) > 1)

In [226]: with open('tmp.txt') as f:

.....: lines = f.readlines()

In [227]: lines

Out[227]:

['Sueña el rico en su riqueza,\n',

'que más cuidados le ofrece;\n',

'sueña el pobre que padece\n',

'su miseria y su pobreza;\n',

'sueña el que a medrar empieza,\n',

'sueña el que afana y pretende,\n',

'sueña el que agravia y ofende,\n',

'y en el mundo, en conclusión,\n',

'todos sueñan lo que son,\n',

'aunque ninguno lo entiende.\n']

54bfcd31ad21

Bytes and Unicode with Files

不论是读取还是写入,默认的python文件都是 text mode(文本模式),意味着你是与python string(i.e., Unicode)打交道。这和binary mode(二进制模式)形成了对比。这里举个栗子(下面的文件包含non-ASCII字符,用UTF-8编码):

with open(path) as f:

chars = f.read(10)

chars

'Sueña el r'

UTF-8是一种长度可变的Unicode编码,所以我们想要从文件中读取一定数量的字符时,python会读取足够的bytes(可能从10到40)然后解码城我们要求数量的字符。而如果我们用'rb'模式的话,read只会读取相应的bytes数量:

with open(path, 'rb') as f:

data = f.read(10)

data

b'Sue\xc3\xb1a el '

取决于文本的编码,你能够把bytes解码为str,不过如果编码的Unicode字符不完整的话,是无法解码的:

data.decode('utf8')

'Sueña el '

data[:4].decode('utf8')

UnicodeDecodeError Traceback (most recent call last)

in ()

----> 1 data[:4].decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

在使用open的时候,文本模式是有一个编码选项的,这能更方便我们把一种Unicode编码变为另一种:

sink_path = '../examples/sink.txt'

with open(path) as source:

with open(sink_path, 'xt', encoding='iso-8859-1') as sink:

sink.write(source.read())

with open(sink_path, encoding='iso-8859-1') as f:

print(f.read(10))

Sueña el r

注意:在任何模式下使用seek打开文件都可以,除了二进制模式。如果文件的指针落在bytes(Unicode编码)的中部,那么之后使用read会报错:

In [240]: f = open(path)

In [241]: f.read(5)

Out[241]: 'Sueña'

In [242]: f.seek(4)

Out[242]: 4

In [243]: f.read(1)

---------------------------------------------------------------------------

UnicodeDecodeError Traceback (most recent call last)

in ()

----> 1 f.read(1)

/miniconda/envs/book-env/lib/python3.6/codecs.py in decode(self, input, final)

319 # decode input (taking the buffer into account)

320 data = self.buffer + input

--> 321 (result, consumed) = self._buffer_decode(data, self.errors, final

)

322 # keep undecoded input until the next call

323 self.buffer = data[consumed:]

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid s

tart byte

In [244]: f.close()

我们已经学过了Python的基础、环境和语法,接下来学习NumPy和Python的面向数组计算。

基本和那个翻译的简书一样,我也不想增加或者删除一些文字了,就稍微加点注释,反正也没人关注,应该不会被说抄袭吧?

这篇关于python的文件操作极其利用的实验,【Chapter 3.3】Python 的文件以及操作系统《利用Python进行数据分析·第2版》...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/280233

相关文章

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.