Maven2上演狸猫换太子――字符编码造成的诡异故障

2024-01-15 10:08

本文主要是介绍Maven2上演狸猫换太子――字符编码造成的诡异故障,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

字符编码界的混乱我们在此不想多提,我们只能祈祷所依赖的平台和环境能够尽可能完善的处理它们

但是,吃芝麻还有掉烧饼的时候,字符编码似乎像赶不走的幽灵,时不时的来恼你一下 这不, Maven2 也被它劫持,跟我来了个狸猫换太子

莫名其妙的没有问题

之前使用 Maven2 作为项目的构建工具,运行的一直很好,虽然每次启动的时候都有

[WARNING] Using platform encoding (GBK actually) to copy filtered resources, i.e. build is platform dependent!

的警告,但开发机和服务器分别属于 windowslinux 系统,均没有出问题,所以也没有太过在意它。

莫名其妙的出了问题

但是就在昨天,我用 eclipse 打开了几个 xml 并关闭(并未做修改)之后,项目开始出现问题, war 无法被正常部署到 tomcat 上,而使用 mvn tomcat:run-war 直接运行时,提示如下异常:

写道
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 3 of 3-byte UTF-8 sequence.

at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(UTF8Reader.java:674)

at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(UTF8Reader.java:425)

 

根据提示,找到出此问题的 xml 文件,其中存在中文,但并没有发现什么异常,从 svnrevert ,也无法解决问题。而在服务器( linux 环境)上,没有任何异常出现。

莫名其妙的找不到原因

由于之前被字符编码折磨过多次,而在此之前这些文件中包含中文并没有问题,因此首先意识到是不是 BOM header 的问题,于是找来 UltraEdit ,打开分析出问题的 xml 文件,发现确实前三个字节被 UTF-8BOM header 占据了,于是将其去掉,运行 故障依旧。

此路不通,另辟他径,试着将文件中的中文全部删除,异常没有了

虽然变相的解决了这个问题,但是,没有 BOM header 和不支持中文始终让人感到不爽,而且既然是 UTF-8 的编码,就没有理由让我用回英文。真相还是没有出来。

莫名其妙的被调包了

正向分析找不到原因,看来只能逆向跟踪每个步骤来找线索了(极度怀疑自己是不是破案片看多了)。找到被打包的 war 文件,解压,查看,果然发现 xml 文件被损坏(中文全部变成了乱码)!

看来是中间过程中文件被损坏了。仔细检查了一下整个自动化过程,发现构建、打包的时候有被修改的可能,于是又打开 target 目录下的 class 目录(即打包之前的文件目录),发现这里的 xml 也被破坏了,那么可以初步断定,资源文件在被复制出来的时候,被调了包。

真相大白

经过逐步检查,发现原来是 Maven2 在复制资源文件时,使用系统编码(也就是上面那个警告所提到的)对资源进行解码,从而造成了 UTF-8 文件被当做 GBKwindows 下默认编码是 GBK )来解码,损坏了 xml 文件。而出现这一情况都是昨天在 pom.xml 中加入 resource 标签之后,那么到此问题真相大白了。

既然找到原因所在,那么解决它也很容易,在 maven-resources-plugin 插件中配置 encodingUTF-8 即可,如下:

<plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-resources-plugin</artifactId><version>2.5</version><configuration><coding>UTF-8</encoding></configuration>
</plugin>

这篇关于Maven2上演狸猫换太子――字符编码造成的诡异故障的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/608528

相关文章

C#如何去掉文件夹或文件名非法字符

《C#如何去掉文件夹或文件名非法字符》:本文主要介绍C#如何去掉文件夹或文件名非法字符的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#去掉文件夹或文件名非法字符net类库提供了非法字符的数组这里还有个小窍门总结C#去掉文件夹或文件名非法字符实现有输入字

基于Go语言实现Base62编码的三种方式以及对比分析

《基于Go语言实现Base62编码的三种方式以及对比分析》Base62编码是一种在字符编码中使用62个字符的编码方式,在计算机科学中,,Go语言是一种静态类型、编译型语言,它由Google开发并开源,... 目录一、标准库现状与解决方案1. 标准库对比表2. 解决方案完整实现代码(含边界处理)二、关键实现细

idea报错java: 非法字符: ‘\ufeff‘的解决步骤以及说明

《idea报错java:非法字符:‘ufeff‘的解决步骤以及说明》:本文主要介绍idea报错java:非法字符:ufeff的解决步骤以及说明,文章详细解释了为什么在Java中会出现uf... 目录BOM是什么?1. BOM的作用2. 为什么会出现 \ufeff 错误?3. 如何解决 \ufeff 问题?最

使用Java编写一个字符脱敏工具类

《使用Java编写一个字符脱敏工具类》这篇文章主要为大家详细介绍了如何使用Java编写一个字符脱敏工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、字符脱敏工具类2、测试工具类3、测试结果1、字符脱敏工具类import lombok.extern.slf4j.Slf4j

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

C语言字符函数和字符串函数示例详解

《C语言字符函数和字符串函数示例详解》本文详细介绍了C语言中字符分类函数、字符转换函数及字符串操作函数的使用方法,并通过示例代码展示了如何实现这些功能,通过这些内容,读者可以深入理解并掌握C语言中的字... 目录一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2st

VSCode中C/C++编码乱码问题的两种解决方法

《VSCode中C/C++编码乱码问题的两种解决方法》在中国地区,Windows系统中的cmd和PowerShell默认编码是GBK,但VSCode默认使用UTF-8编码,这种编码不一致会导致在VSC... 目录问题方法一:通过 Code Runner 插件调整编码配置步骤方法二:在 PowerShell

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常

C# string转unicode字符的实现

《C#string转unicode字符的实现》本文主要介绍了C#string转unicode字符的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录1. 获取字符串中每个字符的 Unicode 值示例代码:输出:2. 将 Unicode 值格式化