本文主要是介绍redis数据结构之String详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
《redis数据结构之String详解》Redis以String为基础类型,因C字符串效率低、非二进制安全等问题,采用SDS动态字符串实现高效存储,通过RedisObject封装,支持多种编码方式(如...
一、为什么Redis选String作为基础类型?
redis中的所有key是字符串,所有value本质上也是字符串,比如 集合set中的每一个 成员 都是一个独立的字符串对象,列表中的每一个 元素 都是一个独立的字符串对象,整个HASH是一个对象,它内部的每一个 字段(field) 和一个字段值(value) 都是一个独立的字符串对象
redis是通过C语言来实现的,但是没有直接使用c语言中的字符串,有几下几点原因
- 获取字符串长度需要通过运算:C字符串以
\0
(空字符)结尾,要获取长度必须遍历整个数组直到遇到\0
,时间复杂度为O(n)MDnMlJy,这在高性能数据库如Redis中效率低下。 - 非二进制安全:C字符串不能存储任意二进制数据,因为它依赖于
\0
作为结束符。如果数据中包含\0
(如一些二进制文件),会被错误截断,破坏数据完整性。 - 不可修改:C语言字符串常量(如
char* s = "hello"
)是只读的,无法直接扩展或修改其长度,这在动态数据存储中不灵活。
Redis的解决方案:Redis因此构建了自己的字符串结构——SDS(简单动态字符串),它通过设计一个智能结构来支持查找、二进制安全性和动态修改。
二、SDS底层数据结构
uint8_t (8位无符号整数),可表示的最大值是 255 (因为 2^8 - 1 = 255),因此 len 最多记录 255 字节 的长度,否则会溢出,如果一个 SDS 字符串的实际长度超过 255 字节,Redis 会自动选择更大容量的结构体(如 sdshdr16/sdshdr32)。
三、RedisObject是什么
通常我们了解的数据结构有字符串、双端链表、字android典、压缩列表、整数集合等,但是Redis为了加快读写速度,php并没有直接使用这些数据结构,而是在此基础上又包装了一层称之为RedisObject。
RedisObject 有五种对象:字符串对象(String)、列表对象(List)、哈希对象(Hash)、集合对象(Set)和有序集合对象(ZSet)。
1.type:数据类型标识(4 bit)就是redis基本类型
类型常量 | 值 | 对www.chinasem.cn应数据结构 |
---|---|---|
OBJ_STRING | 0 | 字符串 |
OBJ_LIST | 1 | 列表 |
OBJ_SET | 2 | 集合 |
OBJ_ZSET | 3 | 有序集合 |
OBJ_HASH | 4 | 哈希表 |
2.encoding:内部编码(4 bit)
同一数据类型可对应不同底层实现:
编码常量 | 值 | 适用类型 | 底层结构 |
---|---|---|---|
OBJ_ENCODING_INT | 0 | String | 整数存储 |
OBJ_ENCODING_EMBSTR | 1 | String | 短字符串优化 |
OBJ_ENCODING_RAW | 2 | String | SDS动态字符串 |
OBJ_ENCODING_HT | 3 | Hash/Set | 哈希表 |
OBJ_ENCODING_ZIPLIST | 4 | LiMDnMlJyst/Hash/Zset | 压缩列表 |
OBJ_ENCODING_QUICKLIST | 5 | List | 快速列表 |
OBJ_ENCODING_SKIPLIST | 6 | Zset | 跳表 |
OBJ_ENCODING_STREAM | 7 | Stream | 流数据结构 |
动态编码转换示例:
- 当 Hash 的元素超过
hash-max-ziplist-entries
时 OBJ_ENCODING_ZIPLIST
→OBJ_ENCODING_HT
3.lru:缓存淘汰信息(24 bit)
- LRU模式:记录对象最后访问时间戳(精度:秒级)
- LFU模式(Redis 4.0+):
16 bits 8 bits +------------+------+ | 访问时间戳 | 频率 | +------------+------+
- 频率(logc):基于概率递增的访问计数器
- 时间戳:解决冷数据滞留问题
4.refcount:引用计数(4字节)
- 内存回收:
refcount=0
时自动释放内存 - 对象共享:相同数据复用对象(如
SET key 100
共享整数对象) - 多客户端引用:同一 key 被多个客户端连接引用
5.ptr:数据指针(8字节)
指向实际数据结构,如:
OBJ_ENCODING_INT
→ 直接存储整数(void *
强转为long
)OBJ_ENCODING_RAW
→ 指向sds
结构OBJ_ENCODING_HT
→ 指向dict
哈希表
四、String类型数据结构
string类型在redis中有三种编码方式
RAW编码
分配两次内存 RedisObject和SDS的内存不连续 两个数据结构申请了两片内存区域
EMBSTR编码
INT编码
为什么分界线是44字节?
44字节的临界值源于内存分配器的优化策略,具体计算如下:
1. 内存分配器的最小单位
- Redis 默认使用 jemalloc 或 glibc malloc
- 这些分配器的最小分配单元通常是 64字节(CPU缓存行对齐)
2. EMBSTR 的总内存占用公式
总大小 = RedisObject(16字节) + SDS头部(3字节) + 字符串内容(N字节) + 结束符\0(1字节)
- 最大允许占用:64字节(分配器最小单元)
- 固定开销:16(robj) + 3(sds) + 1(\0) = 20字节
- 可用空间:64 - 20 = 44字节
编码类型 | OBJ_ENCODING_INT | OBJ_ENCODING_EMBSTR | OBJ_ENCODING_RAW |
---|---|---|---|
触发条件 | 数值类型且值在 [LONG_MIN, LONG_MAX] | 字符串长度 ≤ 44字节 | 字符串长度 > 44字节 |
内存分配次数 | 1次(RedisObject内联存储) | 1次(连续内存块) | 2次(RedisObject + SDS分开) |
适用场景 | 计数器(如 INCR 操作) | 短字符串(如jsON片段、短URL) | 长文本、二进制数据 |
修改时的行为 | 直接替换整数值 | 自动转换为 RAW 编码 | 原地修改或重新分配 |
内存占用示例 | 存储 100:16字节(RedisObject) | 存储 "hello":16+6=22字节 | 存储1KB文本:16+1024+9=1049字节 |
总结
这篇关于redis数据结构之String详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!