txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)

2024-05-11 15:20

本文主要是介绍txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)

脚本的使用方法

创建一个convert_to_utf8的python文件,将代码复制保存。
在终端输入以下命令,即可实现自动检测原文件的编码格式,并生成对应的新文件:

python convert_to_utf8.py 原文件.txt 新文件.txt

当然,也可以指定原文件的编码格式:

python convert_to_utf8.py 原文件.txt 新文件.txt --encoding Big5 
import argparse
import chardetdef detect_encoding(file_path):"""Detect the encoding of a file."""with open(file_path, 'rb') as file:raw_data = file.read(10000)  # Read enough of the file to detect encodingresult = chardet.detect(raw_data)print(f"Detected encoding: {result['encoding']} with confidence {result['confidence']}")return result['encoding']def convert_to_utf8(input_file, output_file, encoding=None):"""Convert a file to UTF-8 encoding using a specified or detected encoding."""if not encoding:encoding = detect_encoding(input_file)try:with open(input_file, 'r', encoding=encoding, errors='ignore') as file:content = file.read()with open(output_file, 'w', encoding='utf-8') as file:file.write(content)print(f"文件已成功转换并保存为:{output_file},使用的编码:{encoding}")except Exception as e:print(f"转换过程中发生错误:{e}")if __name__ == "__main__":parser = argparse.ArgumentParser(description="Convert text file encoding to UTF-8 using a specified or detected encoding.")parser.add_argument("input_file", help="The path to the input file.")parser.add_argument("output_file", help="The path to the output file where the UTF-8 encoded file will be saved.")parser.add_argument("--encoding", help="Optionally specify the encoding to override automatic detection.", default=None)args = parser.parse_args()convert_to_utf8(args.input_file, args.output_file, args.encoding)

这篇关于txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/979913

相关文章

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

HTML5表格语法格式详解

《HTML5表格语法格式详解》在HTML语法中,表格主要通过table、tr和td3个标签构成,本文通过实例代码讲解HTML5表格语法格式,感兴趣的朋友一起看看吧... 目录一、表格1.表格语法格式2.表格属性 3.例子二、不规则表格1.跨行2.跨列3.例子一、表格在html语法中,表格主要通过< tab

C#TextBox设置提示文本方式(SetHintText)

《C#TextBox设置提示文本方式(SetHintText)》:本文主要介绍C#TextBox设置提示文本方式(SetHintText),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录C#TextBox设置提示文本效果展示核心代码总结C#TextBox设置提示文本效果展示核心代

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

MySQL中动态生成SQL语句去掉所有字段的空格的操作方法

《MySQL中动态生成SQL语句去掉所有字段的空格的操作方法》在数据库管理过程中,我们常常会遇到需要对表中字段进行清洗和整理的情况,本文将详细介绍如何在MySQL中动态生成SQL语句来去掉所有字段的空... 目录在mysql中动态生成SQL语句去掉所有字段的空格准备工作原理分析动态生成SQL语句在MySQL

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

如何自定义Nginx JSON日志格式配置

《如何自定义NginxJSON日志格式配置》Nginx作为最流行的Web服务器之一,其灵活的日志配置能力允许我们根据需求定制日志格式,本文将详细介绍如何配置Nginx以JSON格式记录访问日志,这种... 目录前言为什么选择jsON格式日志?配置步骤详解1. 安装Nginx服务2. 自定义JSON日志格式各

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个