Java实现按字节长度截取字符串

2025-05-06 17:50

本文主要是介绍Java实现按字节长度截取字符串,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Java实现按字节长度截取字符串》在Java中,由于字符串可能包含多字节字符,直接按字节长度截取可能会导致乱码或截取不准确的问题,下面我们就来看看几种按字节长度截取字符串的方法吧...

Java中,由于字符串可能包含多字节字符(如中文),直接按字节长度截取可能会导致乱码或截取不准确的问题。以下是几种按字节长度截取字符串的方法:

方法一:使用String的getBytes方法

public static String substringByBytes(String str, int byteLength) {
    if (sthttp://www.chinasem.cnr == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes();
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 处理截取位置可能是多字节字符的情况
    int len = 0;
    for (int i = 0; i < str.length(); i++) {
        char c = str.charAt(i);
        len += (c <= 255) ? 1 : 2; // 假设非ASCII字符占2字节
        
        if (len > byteLength) {
            return str.substring(0, i);
        } else if (len == byteLength) {
            return str.substring(0, i + 1);
        }
    }
    return str;
}

方法二:指定字符编码处理

public static String substringByBytes(String str, int byteLength, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 根据编码创建新的字符串
    return new String(bytes, 0, byteLength, charsetName);
}

方法三:更精确的字符编码处理

public static String substringByBytes(String str, int maxBytes, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || charsetName == null || charsetName.isEmpty()) {
        return str;
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (bytes.length <= maxBytes) {
        return str;
    }
    
    // 处理截断可能导致的半个字符问题
    int nBytes = 0;
    int i = 0;
    for (; i < str.length(); i++) {
        char c = str.charAt(i);
        int charBytes = String.valueOf(c).getBytes(charsetName).length;
        if (nBytes + charBytes > maxBytes) {
            break;
        }
        nBytes += charBytes;
    }
    
    return str.substring(0, i);
}

使用示例

public static void main(String[] args) {
    String testStr = "你好,Java世界!Hello Woandroidrld!";
    
    try {
        System.out.printlnwjvbsEWb(substringByBytes(testStr, 10)); // 输出:你好,J
        System.out.println(substringByBytes(testStr, 15, "UTF-8")); // 输出:你好,Java
        System.out.println(substringByBytes(testStr, 20, "GBK")); // 输出:你好,Java世界!
    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }
}

注意事项

不同编码下字符占用的字节数不同:

UTF-8编码中,中文通常占3字节

GBK编码中,中文占2字节

ISO-8859-1编码中,所有字符占1字节

截取时需要考虑编码的字节边界,避免javascript截断多字节字符导致乱码

性能考虑:对于大字符串频繁截取,建议缓存字节数组或使用更高效的算法

对于表情符号等特殊字符,可能需要额外处理

方法补充

方法一:

方案设计

1. 字节长度计算

首先,我们需要计算字符串的字节长度。在Java中,可以使用String.getBytes()方法将字符串转换为字节数组,然后计算数组的长度。

2. 截取逻辑

根据提供的字节长度,我们需要从字符串的开始位置截取到指定的字节长度。如果截取后的字符串在字符边界上,我们需要确保截取后的字符串是有效的UTF-8序列。

3. 异常处理

在截取过程中,可能会遇到无效的UTF-8序列,我们需要捕获并处理这些异常。

代码实现

public class ByteLengthStringCutter {
    public static String cutByByteLength(String input, int byteLength) {
        if (input == null || byteLength <= 0) {
            return "";
        }
 
        byte[] bytes = input.getBytes(StandardCharsets.UTF_8);
        if (bytes.length <= byteLength) {
            return input;
        }
 
        StringBuilder sb = new StringBuilder();
        try {
            for (int i = 0; i < byteLength; i++) {
                sb.append((char) bytes[i]);
            }
            return sb.toString();
        } catch (IllegalArgumentException e) {
            // 处理无效的UTF-8序列
            return cutByByteLength(input, byteLength - 1);
        }
    }
}

方法二:

完整代码

public class SubstringDemo {

    public static void main(String[] args) {
        // 输入待截取的字符串和截取长度
        String str = "这是一个测试字符串";
        int length = 5; // 需要截取的字节长度

        try {
            // 将字符串转换为字节数组
            byte[] bytes = str.getBytes("UTF-8");
            
            // 进行字节截取
            String result = new String(bytes, 0, length, "UTF-8");

            // 输出截取后的结果
            System.out.println("截取后的结果为:" + result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

到此这篇关于Java实现按字节长度截取字符串的文章就介绍到这了,更多相关Java截取字符串内容请搜索China编程(www.chinasem.cn)以前的文章或php继续浏览下面的相关文章希望大家以后多多支持编程China编程(www.chinasem.cn)!

这篇关于Java实现按字节长度截取字符串的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154501

相关文章

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优