常见的几种编码方式

2024-05-31 22:28
文章标签 常见 几种 编码方式

本文主要是介绍常见的几种编码方式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

常见的编码方式及其特点:

编码方式的设计是为了适应不同的字符集和应用需求,因此它们在表示字符时使用的位数和字节数各不相同

  1. 常见编码方式及其位数和字节数

    • ASCII(American Standard Code for Information Interchange)

      • 位数:7位
      • 字节数:1字节(8位,但最高位固定为0)
      • 字符范围:128个字符(包括英文字母、数字、标点符号和控制字符)
    • ISO 8859-1(Latin-1)

      • 位数:8位
      • 字节数:1字节
      • 字符范围:256个字符(包括西欧语言的字符)
    • GB2312

      • 位数:16位
      • 字节数:2字节
      • 字符范围:6763个汉字及其他字符(主要用于简体中文)
    • BIG5

      • 位数:16位
      • 字节数:2字节
      • 字符范围:13053个汉字及其他字符(主要用于繁体中文)
    • Unicode

      • 位数:16位或32位
      • 字节数:2字节或4字节(具体取决于编码方式)
      • 字符范围:几乎所有已知字符(涵盖全球所有语言)
    • UTF-8(Unicode Transformation Format - 8-bit)

      • 位数:8位到32位
      • 字节数:1到4字节(变长编码)
      • 字符范围:所有Unicode字符
        • 1字节(7位):用于ASCII字符(0x00 - 0x7F)
        • 2字节(11位):用于扩展字符(0x80 - 0x7FF)
        • 3字节(16位):用于基本多文种平面(BMP)字符(0x800 - 0xFFFF)
        • 4字节(21位):用于补充字符(0x10000 - 0x10FFFF)
    • UTF-16(Unicode Transformation Format - 16-bit)

      • 位数:16位或32位
      • 字节数:2字节或4字节
      • 字符范围:所有Unicode字符
        • 2字节(16位):用于基本多文种平面(BMP)字符(0x0000 - 0xFFFF)
        • 4字节(32位):用于补充字符(0x10000 - 0x10FFFF)
    • UTF-32(Unicode Transformation Format - 32-bit)

      • 位数:32位
      • 字节数:4字节
      • 字符范围:所有Unicode字符(直接使用32位表示)

为什么UTF-8可以编码中文,而其他的编码方式不行?

原理解释:

  1. ASCII:只有128个字符,不可能表示中文这样的复杂字符。

  2. ISO 8859-1:扩展到256个字符,但主要用于西欧语言字符,不包括中文。

  3. GB2312 和 BIG5:这两种编码方式是专门为中文设计的,但它们有各自的局限性,不能表示所有的中文字符。

  4. Unicode:它是一个统一的编码标准,包含了全球所有已知的字符。Unicode为每个字符分配一个唯一的编码点(code point),例如“中”字的编码点是U+4E2D。

  5. UTF-8

    • UTF-8是Unicode的一种实现方式,它使用可变长度的字节来编码字符。
    • 对于中文字符,UTF-8通常使用3个字节表示。UTF-8的第一个字节的高位部分指示了该字符需要的总字节数。例如,一个中文字符的第一个字节的高位部分可能是1110xxxx,这表示需要三个字节。后面的两个字节的高位部分是10xxxxxx,表示这是一个多字节字符的一部分。
    • 这种可变长度的设计使得UTF-8可以非常高效地编码各种语言的字符,同时保持对ASCII的兼容性。

详细原理:

  • 中文汉字在UTF-8编码中通常是三个字节,但这并不是绝对的。具体来说,UTF-8编码的长度取决于字符的Unicode编码点范围。下面是UTF-8编码的基本规则:

  • 单字节字符(0x00 - 0x7F):1字节,最高位为0。例如,ASCII字符“a”编码为0x61。
  • 双字节字符(0x80 - 0x7FF):2字节,第一个字节为110xxxxx,第二个字节为10xxxxxx。
  • 三字节字符(0x800 - 0xFFFF):3字节,第一个字节为1110xxxx,后两个字节为10xxxxxx。
  • 四字节字符(0x10000 - 0x10FFFF):4字节,第一个字节为11110xxx,后三个字节为10xxxxxx。

总结

大多数中文汉字在UTF-8中是三个字节

但对于超过基本多文种平面的汉字,则需要使用四个字节表示。UTF-8通过这种可变长度的设计,能够有效地表示包括中文在内的所有Unicode字符。

大多数常用的中文汉字的Unicode编码点范围在0x4E00到0x9FFF之间,因此在UTF-8中表示为三个字节。例如,“中”字的Unicode编码是U+4E2D,在UTF-8中编码为E4 B8 AD。

然而,也有一些特殊的汉字或者罕见的汉字,它们的Unicode编码点超出了0xFFFF,需要使用四个字节来表示。以下是几个例子:

例子1:“𠀀”(CJK扩展B区第一个字符)

Unicode编码

  • “𠀀”字的Unicode编码是U+20000。

转换为二进制

  • 20000(十六进制)转换为二进制是0010 0000 0000 0000 0000。

根据UTF-8的编码规则进行分组

  • UTF-8编码四字节格式:
    • 第一个字节:11110xxx
    • 第二个字节:10xxxxxx
    • 第三个字节:10xxxxxx
    • 第四个字节:10xxxxxx

应用到“𠀀”字的二进制表示

  • 将0010 0000 0000 0000 0000分配到UTF-8的四个字节中:
    • 第一个字节:1111 0000
    • 第二个字节:1010 0000
    • 第三个字节:1000 0000
    • 第四个字节:1000 0000

最终UTF-8编码表示

  • 第一个字节:11110000 (F0)
  • 第二个字节:10100000 (A0)
  • 第三个字节:10000000 (80)
  • 第四个字节:10000000 (80)

c++ String

C++ 的 std::string 是一个通用的字符串容器,它本身并不依赖于特定的字符编码。这种设计使得 std::string 可以存储不同编码的字符串。下面详细解释其中的原因和机制。

std::string 的设计

  1. 字节序列容器

    • std::string 本质上是一个字节序列的容器,可以存储任意的字节数据。
    • 它不关心这些字节数据的具体含义,这使得它可以存储不同编码的字符串。
  2. 字符编码无关性

    • std::string 并不强制要求字符串使用特定的编码。
    • 可以将任何编码的字符数据(如ASCII、UTF-8、ISO 8859-1等)存储在 std::string 中。
  3. 灵活的内存管理

    • std::string 使用动态内存管理,可以灵活地调整其容量以适应存储的字符数据。
    • 这使得它可以存储从短的ASCII字符串到长的多字节编码字符串(如UTF-8)。
#include <iostream>
#include <string>int main() {// ASCII编码的字符串std::string ascii_str = "Hello, World!";std::cout << "ASCII: " << ascii_str << std::endl;// UTF-8编码的字符串std::string utf8_str = u8"你好,世界!";std::cout << "UTF-8: " << utf8_str << std::endl;// ISO 8859-1编码的字符串std::string iso8859_1_str = "\xA1\xA2\xA3";std::cout << "ISO 8859-1: " << iso8859_1_str << std::endl;return 0;
}

std::wstring 和宽字符

对于需要处理Unicode字符的应用,C++还提供了宽字符字符串类型 std::wstringstd::wstring 使用 wchar_t 类型存储字符,每个字符的大小依赖于具体实现(通常是2或4字节),可以更方便地处理多字节编码的字符数据,如UTF-16。

#include <iostream>
#include <string>int main() {// UTF-16编码的宽字符字符串std::wstring utf16_str = L"你好,世界!";std::wcout << L"UTF-16: " << utf16_str << std::endl;return 0;
}

编码转换

在实际应用中,可能需要在不同编码之间进行转换。C++11及之后的标准库提供了 codecvt 来支持字符编码转换。

#include <iostream>
#include <string>
#include <locale>
#include <codecvt>int main() {// UTF-8 to UTF-16std::string utf8_str = u8"你好,世界!";std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;std::wstring utf16_str = converter.from_bytes(utf8_str);std::wcout << L"UTF-16: " << utf16_str << std::endl;// UTF-16 to UTF-8std::string utf8_converted = converter.to_bytes(utf16_str);std::cout << "UTF-8: " << utf8_converted << std::endl;return 0;
}

总结

  • std::string 是一个通用的字节序列容器,可以存储不同编码的字符串,因为它本质上是存储字节数据而不是特定的字符编码。
  • std::wstring 提供了处理宽字符的支持,适用于多字节编码的字符数据。
  • 对于字符编码的转换和处理,需要使用适当的工具和库,例如 codecvt

这篇关于常见的几种编码方式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1019210

相关文章

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

python判断文件是否存在常用的几种方式

《python判断文件是否存在常用的几种方式》在Python中我们在读写文件之前,首先要做的事情就是判断文件是否存在,否则很容易发生错误的情况,:本文主要介绍python判断文件是否存在常用的几种... 目录1. 使用 os.path.exists()2. 使用 os.path.isfile()3. 使用

java中long的一些常见用法

《java中long的一些常见用法》在Java中,long是一种基本数据类型,用于表示长整型数值,接下来通过本文给大家介绍java中long的一些常见用法,感兴趣的朋友一起看看吧... 在Java中,long是一种基本数据类型,用于表示长整型数值。它的取值范围比int更大,从-922337203685477

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

Java中常见队列举例详解(非线程安全)

《Java中常见队列举例详解(非线程安全)》队列用于模拟队列这种数据结构,队列通常是指先进先出的容器,:本文主要介绍Java中常见队列(非线程安全)的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一.队列定义 二.常见接口 三.常见实现类3.1 ArrayDeque3.1.1 实现原理3.1.2

MyBatis设计SQL返回布尔值(Boolean)的常见方法

《MyBatis设计SQL返回布尔值(Boolean)的常见方法》这篇文章主要为大家详细介绍了MyBatis设计SQL返回布尔值(Boolean)的几种常见方法,文中的示例代码讲解详细,感兴趣的小伙伴... 目录方案一:使用COUNT查询存在性(推荐)方案二:条件表达式直接返回布尔方案三:存在性检查(EXI

Python struct.unpack() 用法及常见错误详解

《Pythonstruct.unpack()用法及常见错误详解》struct.unpack()是Python中用于将二进制数据(字节序列)解析为Python数据类型的函数,通常与struct.pa... 目录一、函数语法二、格式字符串详解三、使用示例示例 1:解析整数和浮点数示例 2:解析字符串示例 3:解

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

MySQL查看表的最后一个ID的常见方法

《MySQL查看表的最后一个ID的常见方法》在使用MySQL数据库时,我们经常会遇到需要查看表中最后一个id值的场景,无论是为了调试、数据分析还是其他用途,了解如何快速获取最后一个id都是非常实用的技... 目录背景介绍方法一:使用MAX()函数示例代码解释适用场景方法二:按id降序排序并取第一条示例代码解

Go语言中使用JWT进行身份验证的几种方式

《Go语言中使用JWT进行身份验证的几种方式》本文主要介绍了Go语言中使用JWT进行身份验证的几种方式,包括dgrijalva/jwt-go、golang-jwt/jwt、lestrrat-go/jw... 目录简介1. github.com/dgrijalva/jwt-go安装:使用示例:解释:2. gi