【python学习笔记】chardet模块检测编码

2024-02-23 12:48

本文主要是介绍【python学习笔记】chardet模块检测编码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 18 14:16:16 2020@author: weisssun
"""
#chardet模块可以用来检测编码
#判断位置编码的方法,是先收集各种编码的特征字符,根据特征字符的匹配进行判断
#chardet模块已经收集了这样的特征字符
#在调用该模块时,它就会将被识别数据的编码与特征字符库进行匹配,从而进行“猜测”
#因此,这样的猜测也有准确程度的问题#参考链接:https://www.liaoxuefeng.com/wiki/1016959663602400/1183255880134144
#参考链接:https://www.jianshu.com/p/d73c0017158cimport chardet
#导入 chardet 模块testdata = open(r'D:\Python\comment_analysis\dict\stopwords.txt', 'rb').read()
# open('文件路径', 'rb').read()
#打开要识别编码的数据
#打开测试文件,chardet 只能对 bytes 形式的编码进行检测,因此文件打开方式是 'rb'codInf = chardet.detect(testdata)
# chardet.detect(要识别编码的数据)
#调用detect方法识别编码
print(codInf)
#输出的是字典格式的结果
#{'encoding': 'UTF-8-SIG', 'confidence': 1.0, 'language': ''}
#分别是 encoding 编码方式
#      confidence 判断编码方式的正确率
#      language 编码方式的语言( gbk 就会显示是中文)codType = codInf['encoding']
# 字典['encoding']
#从字典中取出编码方式,传入后续的各种地方
print(codType)
print(type(codType))
#最终给出的是 str 格式的编码方式#上述方法,chardet会全部读取文件,然后判断编码格式
#如果文件比较大,效率就会很低
#另一种方法是一行一行读取数据,将数据喂给UniversalDetector,当读取的数据足以做出判断时,就停下来print('————————————我是分隔符————————————')
print('大文件识别编码')from chardet.universaldetector import UniversalDetector
#导入 UniversalDetector 方法detector = UniversalDetector()
# UniversalDetector()
#创建 UniversalDetector 方法实例 detectorbigdata = open(r'D:\Python\comment_analysis\dict\stopwords.txt', 'rb').readlines()for line in bigdata:detector.feed(line)if detector.done:break
detector.close()
#一行一行读取数据,将数据喂给detector,当读取的数据足以做出判断时,就停下来codInf2 = detector.result
print(codInf2)codType2 = codInf2['encoding']
print(codType)#多个文件判断编码同上
#重复调用 UniversalDetector 时,要先初始化
#UniversalDetector实例.reset()print('————————————我是分隔符————————————')
print('多个文件识别编码')'''
import os
from chardet.universaldetector import UniversalDetectordetector = UniversalDetector()
dirlist = os.dirlist('/Users/suosuo/Desktop/Test')
for name in dirlist:path = os.getcwd()+'\\%s'%namedetector.reset()for line in open(path, 'rb').readlines():detector.feed(line)if detector.done: breakdetector.close()print(detector.result)
'''

这篇关于【python学习笔记】chardet模块检测编码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/738682

相关文章

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、

Python struct.unpack() 用法及常见错误详解

《Pythonstruct.unpack()用法及常见错误详解》struct.unpack()是Python中用于将二进制数据(字节序列)解析为Python数据类型的函数,通常与struct.pa... 目录一、函数语法二、格式字符串详解三、使用示例示例 1:解析整数和浮点数示例 2:解析字符串示例 3:解