C++码表之Unicode

2024-08-25 09:12
文章标签 c++ unicode 码表

本文主要是介绍C++码表之Unicode,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今日诗词:

折花逢驿使,寄与陇头人。

江南无所有,聊赠一枝春。

                                          ——《赠范晔诗》【南北朝】陆凯


引言:

上一期我们说到了ASCII码表,这是一种现如今不是那么通用的机制,随着计算机的普及,越来越多的人开始学习计算机,深入研究它,所以我们需要一种可以映射所有语言的码表,这就是Unicode编码。

正文:

小知识:

在开始今天的Unicode编码前,我先来说一个知识点,有助于后面地理解,看懂机制中代表的意思。

字节序:

一个字(32位机器采用32bits字长4bytes)在内存中存放的字节序是怎样的呢?

两个方法:

大端法:(big endition):大多数IBM机器,Internet传输

0x1000x1010x1020x103
01234567

小端法:(little endition):Intel兼容机

0x1000x1010x1020x103
67452301

这就是字节序的表示方法:大端法,小端法。


Unicode编码

Unicode编码,也被称为统一码、万国码或单一码,是一种在计算机上广泛使用的字符编码方案。它旨在解决传统字符编码方案的局限,为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本转换和处理的需求。
一、起源与发展
Unicode编码的历史可以追溯到20世纪60年代,当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式,导致文本和数据在不同系统间传输时出现混乱和错误。为解决这一问题,国际组织开始致力于制定统一的字符编码标准。1987年,Unicode联盟成立,开始制定Unicode编码标准。该标准于1990年开始研发,1994年正式公布,并随着计算机和互联网的发展逐渐成为全球通用的字符编码标准。
二、特点与优势
1.统一性:Unicode为世界上几乎所有的字符集和符号提供了唯一的数字标识符,确保了字符在不同计算机系统和编程环境中的一致性和互操作性。
2.扩展性:Unicode编码体系庞大,能够容纳超过110万个码位,涵盖了全球范围内的绝大多数语言字符,为未来的字符扩展提供了充足的空间。
3.兼容性:Unicode与多种传统字符编码方案(如ISO 8859、GB2312等)保持兼容,使得旧有编码方式可以平滑过渡到Unicode编码。
三、实现方式
虽然Unicode为每个字符分配了唯一的码位,但其具体实现方式(如UTF-8、UTF-16、UTF-32等)在编码长度上有所不同:
1.UTF-8:一种可变长度的编码方式,能够根据字符的不同使用不同数量的字节进行编码。它对于ASCII字符非常高效且兼容,是互联网上最流行的字符编码方式之一。特点是存储效率高(不方便内部随机访问);无字节序问题(可作为外部编码);与ASCII码表完全互通。一个byte表示一个字符。
2.UTF-16:固定长度的编码方式,使用16位(即2个字节)来表示一个字符。在处理基本平面的字符时非常高效,但对于扩展平面的字符需要使用代理对(surrogate pair)来表示。特点是定长(方便内部随机访问);有字节序问题(不可作为外部编码)。两个byte表示一个字符。
3.UTF-32:也是固定长度的编码方式,使用32位(即4个字节)来表示一个字符。它简化了字符的编码和解码过程,但可能会占用更多的存储空间。特点是定长(方便内部随机访问);有字节序问题(不可作为外部编码)。两个byte表示一个字符。

四、应用领域
Unicode编码在多个领域发挥着重要作用,包括:

  1. 跨语言文本处理:使得不同语言的文本可以在同一平台上进行处理和交换。
  2. 国际化软件开发:确保软件支持多种语言,满足全球化市场的需求。
  3. 网络通信:确保各种语言的字符能够正确传输和显示,提高通信的效率和准确性。
  4. 数据库存储:为数据分析和挖掘提供更广泛的数据来源。
  5. 文本编辑器:在文档或文本文件中插入Unicode字符时,可以直接使用文本编辑器进行输入或粘贴。
  6. HTML和网页:在HTML中,可以使用实体编码或直接插入Unicode字符来表示特殊字符。

综上所述,Unicode编码作为一种重要的字符编码标准,为全球范围内的信息交流和处理提供了统一的基础。随着技术的不断发展和全球化的推进,Unicode编码将在更多领域发挥重要作用。


实例演示:

 首先我们在Notepad++中写一段字符串常量(helloworld),然后在编码中转换成不同的编码(这里有五种编码:ASCII码表,UTF-8编码,UTF-8-BOM编码,UTF-16 Big Endition编码,UTF-16 Little Endition编码),转化后的文件(五个)保存在一起方便使用。

 

 然后在资源管理器中打开这五个文件。然后选中其中一个文件点击右键就会出现打开方式的方框,找到二进制编辑器然后单击,就会出现着五种形式各自的二进制表示。

 我们看上图,其中3和4就是ASCII码表和UTF-8编码,这两个的二进制表示一摸一样,因为二者都是以8位来定义的,所以是通用的。然后是1和5,分别是UTF-16 Big Endition编码和UTF-16 Little Endition编码,它们之间的不同之处就是字节序的不同,其他都是相同的;相比于UTF-8编码,这两个在每一个数字都加了00。最后是UTF-8-BOM编码,这个可以忽略,因为八位的没有字节序,而BOM又是定义字节序的符号,所以在这就是多此一举。

最后说一句:编码错误的根本原因在于编码方式和解码方式的不统一(就是解铃还须系铃人)。所以当文件出现乱码情况,80%都是这个原因。这一章我讲解的比较简单,不够严谨规范,感兴趣的同学可以深入研究一下


🆗到这里,这篇关于:C++码表之Unicode就说完了,求一个免费的赞,感谢阅读

下期预告:C++字符串的指针表示

这篇关于C++码表之Unicode的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1105139

相关文章

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Linux下如何使用C++获取硬件信息

《Linux下如何使用C++获取硬件信息》这篇文章主要为大家详细介绍了如何使用C++实现获取CPU,主板,磁盘,BIOS信息等硬件信息,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录方法获取CPU信息:读取"/proc/cpuinfo"文件获取磁盘信息:读取"/proc/diskstats"文

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

C++ vector的常见用法超详细讲解

《C++vector的常见用法超详细讲解》:本文主要介绍C++vector的常见用法,包括C++中vector容器的定义、初始化方法、访问元素、常用函数及其时间复杂度,通过代码介绍的非常详细,... 目录1、vector的定义2、vector常用初始化方法1、使编程用花括号直接赋值2、使用圆括号赋值3、ve

如何高效移除C++关联容器中的元素

《如何高效移除C++关联容器中的元素》关联容器和顺序容器有着很大不同,关联容器中的元素是按照关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的,本文介绍了如何高效移除C+... 目录一、简介二、移除给定位置的元素三、移除与特定键值等价的元素四、移除满足特android定条件的元

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(