Java码农的福音:再也不怕乱码了

2024-05-16 00:44
文章标签 java 乱码 再也 码农 福音

本文主要是介绍Java码农的福音:再也不怕乱码了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

即便是Java这样成熟的语言,开发者们也常常会遇到一个恼人的问题——乱码。

本文将深入探讨乱码的根本原因,并针对Java开发中的乱码场景提出有效的解决方案,辅以实战代码,让Java程序员从此告别乱码困扰。

一,字符集的故事

1,计算机不懂字符

敲代码时,键盘上输入的是字符,屏幕上显示的是字符,但计算机的大脑CPU其实根本不知道字符是什么,CPU能处理的只有二进制,即数字0和1。

在这里插入图片描述
键盘上敲下的字符并不会直接被CPU处理,而是转换为一个二进制,CPU将这个二进制交给GPU,GPU根据❶二进制对应的数字从❷字库中找到对应的字符,以点阵的方式显示在屏幕上。在计算机内部,字符始终是二进制的形式。

上述过程有两个关键点:
❶二进制对应的数字,是字符的编号,称之为码点
❷字库包含所有字符及其对应的码点,称之为字符编码集

2,4个基本概念

为了更清晰的认知字符的原理,出来上述码点和字符编码集之外,还有2个概念,总共是4个基本概念:

  • 字符集合(Character set):是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,简单理解就是一个字库,与计算机以及编码无关。

  • 字符编码集(Coded character set):是一组字符对应的编码(即数字),为字符集合中的每一个字符给予一个数字,如 Unicode 为每一个字符分配一个唯一的码点与之一一对应。如下图所示:

在这里插入图片描述

  • 字符编码(Character Encoding):简单理解就是一个映射关系,将字符集对应的码点映射为一个个二进制序列,从而使得计算机可以存储和处理。常见的编码方式有 ASCII 编码、ISO-8859-1(不支持中文)、GBK、GB2312(中国编码,支持中文)、UTF-8 等等。字符编码的本质就是把码点通过一个映射函数转换为另一个数字。

这里大家要思考一个问题,码点不就是一个数字吗?直接转换为二进制不就行了吗,为什么又要转换为另一个数字呢?
答案要从字符集的发展历史说起,因为计算机产生在英语国家,字符比较少,所以只需要一个字节就可以表示所有字符,这个表示所有英文世界的字符就是大名鼎鼎的ASCII字符编码集
当计算机出现在其他国家后,比如中国,ASCII字符编码集无法表示中文字符,因为其最多只能表示128个字符,而中文字符有几万个。所以非英语国家也各自制定了字符集。如中国大陆的简体字GBK字符编码集,港澳台的繁体字Big5字符编码集,这样全世界就出现了各种各样的字符编码集。
后来,一种包含全世界所有字符的字符编码集出现了,即UTF-32,这个字符编码集用4个字节来表示一个字符,4个字节最多能容纳超过42亿个字符,远远超过了实际需要。但是这个字符集会浪费大量的存储空间,如对于英文字符,本来只要1个字节,但是使用UTF-32,也要占用4个字节,扩大了4倍。
④解决这个问题的最佳方案是弹性灵活的根据码点选择不同的编码方式,比如英文字母用一个字节的二进制,中文字母用2个字节的二进制,某些特殊符号用3个或者4个字节存储。此时,情况就变得复杂起来,不能直接用码点对应的二进制来存储了,因为新编码的二进制是变长的,可能是一个字节,也可能是2、3、4个字节,这就要求二进制编码不仅要包含码点信息,还要包含二进制的长度信息。于是,将码点映射为一个新的二进制数字的需求就出现了,这个功能称之为字符编码。

  • 字符集(Charset):包括编码字符集和字符编码,如 ASCII 字符集、ISO-8859-X、GB2312 字符集(简中)、BIG5 字符集(繁中)、GB18030 字符集、Shift-JIS 等,即下文中提到的字符集。多种多样的字符集是出现乱码的罪魁祸首

二,为什么会乱码及其解决方案

1,乱码案例

尽管有UTF-8字符集,但因为各种原因,各个字符集仍然有广泛的应用。于是,乱码的出现了。

比如,大陆的兄弟写了一个文本文件,因为操作系统的原因,默认用GBK保存,这个文件通过邮件发送给了香港的同学,香港的计算机操作系统默认使用Big5字符集,香港同学打开时,出现了乱码。
在这里插入图片描述
根本原因是,相同的码点在GBK字符集和Big5字符集表示不同的字符,比如GBK下“兄”的码点是48019,但是在Big5字符集下,并没有这个码点,就会出现乱码。

总结乱码的一般过程:
①写文件使用字符集A进行编码;
②读文件使用字符集B进行解码;

2,乱码的本质:字符集的牛唇不对马嘴

出现乱码,最根本的原因是编码和解码使用了不同的字符集

3,乱码的解决方案

知道了根本原因之后,解决问题就有了思路,解码和编码使用相同的字符集就可以解决乱码问题。

虽然,乱码的表现方式各种各样,需要我们在处理具体的乱码场景时不断积累经验,但万变不离其宗,根本原因还是编码、解码的字符集不一致导致的。

四,Java乱码的常见场景及解决方案

Java内部使用Unicode(通常是UTF-16)作为字符集,这意味着Java源代码、字符串字面量、以及char类型的变量都默认使用Unicode编码。但在输入输出、网络传输、文件操作等环节,Java需要与外部环境交互,这就容易因为编码不一致而导致乱码。

1. 控制台输出乱码

场景:在IDE(如Eclipse、IntelliJ IDEA)中运行Java程序,控制台输出中文时出现乱码。

原因:IDE使用的默认字符编码与Java虚拟机(JVM)的默认编码不一致。

解决方案

  • 修改IDE设置:在IDE中设置项目的字符编码为UTF-8。
    • 例如,在Eclipse中,可以通过右击项目 > Properties > Resource > Text file encoding 设置为UTF-8。
  • 启动参数设置:通过JVM参数指定编码。
    // 在程序启动参数中添加以下内容
    -Dfile.encoding=UTF-8
    

2. 文件读写乱码

场景:读取或写入含有中文的文本文件时出现乱码。

原因:文件的实际编码与程序中指定的编码不匹配。

解决方案

  • 明确指定编码:使用InputStreamReaderOutputStreamWriter时显式指定字符编码。
    // 写文件示例
    try (FileOutputStream fos = new FileOutputStream("test.txt");OutputStreamWriter osw = new OutputStreamWriter(fos, StandardCharsets.UTF_8)) {osw.write("你好,世界!");
    }// 读文件示例
    try (FileInputStream fis = new FileInputStream("test.txt");InputStreamReader isr = new InputStreamReader(fis, StandardCharsets.UTF_8)) {char[] buffer = new char[1024];int len;while ((len = isr.read(buffer)) != -1) {System.out.print(new String(buffer, 0, len));}
    }
    

3. 网络传输乱码

场景:在进行HTTP请求或响应时,中文参数或内容出现乱码。

原因:HTTP协议默认使用ISO-8859-1编码,不支持中文等多字节字符。

解决方案

  • URL编码与解码:对中文参数进行URL编码和解码。

    // 编码
    String encodedParam = URLEncoder.encode("中文参数", StandardCharsets.UTF_8);// 解码
    String decodedParam = URLDecoder.decode(encodedParam, StandardCharsets.UTF_8);
    
  • 设置Content-Type:在HTTP请求或响应头中指定正确的字符编码。

    对于客户端请求:

    HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    connection.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=utf-8");
    

    对于服务器端响应:

    response.setCharacterEncoding("UTF-8");
    

这篇关于Java码农的福音:再也不怕乱码了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/993394

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面:本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一:使用 which命令方法二:使用 Java_home工具(Apple 官方推荐)那问题来了,

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Java中的.close()举例详解

《Java中的.close()举例详解》.close()方法只适用于通过window.open()打开的弹出窗口,对于浏览器的主窗口,如果没有得到用户允许是不能关闭的,:本文主要介绍Java中的.... 目录当你遇到以下三种情况时,一定要记得使用 .close():用法作用举例如何判断代码中的 input

Spring Gateway动态路由实现方案

《SpringGateway动态路由实现方案》本文主要介绍了SpringGateway动态路由实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录前沿何为路由RouteDefinitionRouteLocator工作流程动态路由实现尾巴前沿S