Java码农的福音:再也不怕乱码了

2024-05-16 00:44
文章标签 java 乱码 再也 码农 福音

本文主要是介绍Java码农的福音:再也不怕乱码了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

即便是Java这样成熟的语言,开发者们也常常会遇到一个恼人的问题——乱码。

本文将深入探讨乱码的根本原因,并针对Java开发中的乱码场景提出有效的解决方案,辅以实战代码,让Java程序员从此告别乱码困扰。

一,字符集的故事

1,计算机不懂字符

敲代码时,键盘上输入的是字符,屏幕上显示的是字符,但计算机的大脑CPU其实根本不知道字符是什么,CPU能处理的只有二进制,即数字0和1。

在这里插入图片描述
键盘上敲下的字符并不会直接被CPU处理,而是转换为一个二进制,CPU将这个二进制交给GPU,GPU根据❶二进制对应的数字从❷字库中找到对应的字符,以点阵的方式显示在屏幕上。在计算机内部,字符始终是二进制的形式。

上述过程有两个关键点:
❶二进制对应的数字,是字符的编号,称之为码点
❷字库包含所有字符及其对应的码点,称之为字符编码集

2,4个基本概念

为了更清晰的认知字符的原理,出来上述码点和字符编码集之外,还有2个概念,总共是4个基本概念:

  • 字符集合(Character set):是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,简单理解就是一个字库,与计算机以及编码无关。

  • 字符编码集(Coded character set):是一组字符对应的编码(即数字),为字符集合中的每一个字符给予一个数字,如 Unicode 为每一个字符分配一个唯一的码点与之一一对应。如下图所示:

在这里插入图片描述

  • 字符编码(Character Encoding):简单理解就是一个映射关系,将字符集对应的码点映射为一个个二进制序列,从而使得计算机可以存储和处理。常见的编码方式有 ASCII 编码、ISO-8859-1(不支持中文)、GBK、GB2312(中国编码,支持中文)、UTF-8 等等。字符编码的本质就是把码点通过一个映射函数转换为另一个数字。

这里大家要思考一个问题,码点不就是一个数字吗?直接转换为二进制不就行了吗,为什么又要转换为另一个数字呢?
答案要从字符集的发展历史说起,因为计算机产生在英语国家,字符比较少,所以只需要一个字节就可以表示所有字符,这个表示所有英文世界的字符就是大名鼎鼎的ASCII字符编码集
当计算机出现在其他国家后,比如中国,ASCII字符编码集无法表示中文字符,因为其最多只能表示128个字符,而中文字符有几万个。所以非英语国家也各自制定了字符集。如中国大陆的简体字GBK字符编码集,港澳台的繁体字Big5字符编码集,这样全世界就出现了各种各样的字符编码集。
后来,一种包含全世界所有字符的字符编码集出现了,即UTF-32,这个字符编码集用4个字节来表示一个字符,4个字节最多能容纳超过42亿个字符,远远超过了实际需要。但是这个字符集会浪费大量的存储空间,如对于英文字符,本来只要1个字节,但是使用UTF-32,也要占用4个字节,扩大了4倍。
④解决这个问题的最佳方案是弹性灵活的根据码点选择不同的编码方式,比如英文字母用一个字节的二进制,中文字母用2个字节的二进制,某些特殊符号用3个或者4个字节存储。此时,情况就变得复杂起来,不能直接用码点对应的二进制来存储了,因为新编码的二进制是变长的,可能是一个字节,也可能是2、3、4个字节,这就要求二进制编码不仅要包含码点信息,还要包含二进制的长度信息。于是,将码点映射为一个新的二进制数字的需求就出现了,这个功能称之为字符编码。

  • 字符集(Charset):包括编码字符集和字符编码,如 ASCII 字符集、ISO-8859-X、GB2312 字符集(简中)、BIG5 字符集(繁中)、GB18030 字符集、Shift-JIS 等,即下文中提到的字符集。多种多样的字符集是出现乱码的罪魁祸首

二,为什么会乱码及其解决方案

1,乱码案例

尽管有UTF-8字符集,但因为各种原因,各个字符集仍然有广泛的应用。于是,乱码的出现了。

比如,大陆的兄弟写了一个文本文件,因为操作系统的原因,默认用GBK保存,这个文件通过邮件发送给了香港的同学,香港的计算机操作系统默认使用Big5字符集,香港同学打开时,出现了乱码。
在这里插入图片描述
根本原因是,相同的码点在GBK字符集和Big5字符集表示不同的字符,比如GBK下“兄”的码点是48019,但是在Big5字符集下,并没有这个码点,就会出现乱码。

总结乱码的一般过程:
①写文件使用字符集A进行编码;
②读文件使用字符集B进行解码;

2,乱码的本质:字符集的牛唇不对马嘴

出现乱码,最根本的原因是编码和解码使用了不同的字符集

3,乱码的解决方案

知道了根本原因之后,解决问题就有了思路,解码和编码使用相同的字符集就可以解决乱码问题。

虽然,乱码的表现方式各种各样,需要我们在处理具体的乱码场景时不断积累经验,但万变不离其宗,根本原因还是编码、解码的字符集不一致导致的。

四,Java乱码的常见场景及解决方案

Java内部使用Unicode(通常是UTF-16)作为字符集,这意味着Java源代码、字符串字面量、以及char类型的变量都默认使用Unicode编码。但在输入输出、网络传输、文件操作等环节,Java需要与外部环境交互,这就容易因为编码不一致而导致乱码。

1. 控制台输出乱码

场景:在IDE(如Eclipse、IntelliJ IDEA)中运行Java程序,控制台输出中文时出现乱码。

原因:IDE使用的默认字符编码与Java虚拟机(JVM)的默认编码不一致。

解决方案

  • 修改IDE设置:在IDE中设置项目的字符编码为UTF-8。
    • 例如,在Eclipse中,可以通过右击项目 > Properties > Resource > Text file encoding 设置为UTF-8。
  • 启动参数设置:通过JVM参数指定编码。
    // 在程序启动参数中添加以下内容
    -Dfile.encoding=UTF-8
    

2. 文件读写乱码

场景:读取或写入含有中文的文本文件时出现乱码。

原因:文件的实际编码与程序中指定的编码不匹配。

解决方案

  • 明确指定编码:使用InputStreamReaderOutputStreamWriter时显式指定字符编码。
    // 写文件示例
    try (FileOutputStream fos = new FileOutputStream("test.txt");OutputStreamWriter osw = new OutputStreamWriter(fos, StandardCharsets.UTF_8)) {osw.write("你好,世界!");
    }// 读文件示例
    try (FileInputStream fis = new FileInputStream("test.txt");InputStreamReader isr = new InputStreamReader(fis, StandardCharsets.UTF_8)) {char[] buffer = new char[1024];int len;while ((len = isr.read(buffer)) != -1) {System.out.print(new String(buffer, 0, len));}
    }
    

3. 网络传输乱码

场景:在进行HTTP请求或响应时,中文参数或内容出现乱码。

原因:HTTP协议默认使用ISO-8859-1编码,不支持中文等多字节字符。

解决方案

  • URL编码与解码:对中文参数进行URL编码和解码。

    // 编码
    String encodedParam = URLEncoder.encode("中文参数", StandardCharsets.UTF_8);// 解码
    String decodedParam = URLDecoder.decode(encodedParam, StandardCharsets.UTF_8);
    
  • 设置Content-Type:在HTTP请求或响应头中指定正确的字符编码。

    对于客户端请求:

    HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    connection.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=utf-8");
    

    对于服务器端响应:

    response.setCharacterEncoding("UTF-8");
    

这篇关于Java码农的福音:再也不怕乱码了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/993394

相关文章

Java StringBuilder 实现原理全攻略

《JavaStringBuilder实现原理全攻略》StringBuilder是Java提供的可变字符序列类,位于java.lang包中,专门用于高效处理字符串的拼接和修改操作,本文给大家介绍Ja... 目录一、StringBuilder 基本概述核心特性二、StringBuilder 核心实现2.1 内部

SpringBoot AspectJ切面配合自定义注解实现权限校验的示例详解

《SpringBootAspectJ切面配合自定义注解实现权限校验的示例详解》本文章介绍了如何通过创建自定义的权限校验注解,配合AspectJ切面拦截注解实现权限校验,本文结合实例代码给大家介绍的非... 目录1. 创建权限校验注解2. 创建ASPectJ切面拦截注解校验权限3. 用法示例A. 参考文章本文

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使

Java Stream流与使用操作指南

《JavaStream流与使用操作指南》Stream不是数据结构,而是一种高级的数据处理工具,允许你以声明式的方式处理数据集合,类似于SQL语句操作数据库,本文给大家介绍JavaStream流与使用... 目录一、什么是stream流二、创建stream流1.单列集合创建stream流2.双列集合创建str

springboot集成easypoi导出word换行处理过程

《springboot集成easypoi导出word换行处理过程》SpringBoot集成Easypoi导出Word时,换行符n失效显示为空格,解决方法包括生成段落或替换模板中n为回车,同时需确... 目录项目场景问题描述解决方案第一种:生成段落的方式第二种:替换模板的情况,换行符替换成回车总结项目场景s

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

SpringBoot中@Value注入静态变量方式

《SpringBoot中@Value注入静态变量方式》SpringBoot中静态变量无法直接用@Value注入,需通过setter方法,@Value(${})从属性文件获取值,@Value(#{})用... 目录项目场景解决方案注解说明1、@Value("${}")使用示例2、@Value("#{}"php

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建