108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —

108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —— HyperLogLog

本文主要是介绍108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —— HyperLogLog，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Redis 的基数统计算法 —— HyperLogLog

本章主题
关键词
为什么要使用 HyperLogLog？
HyperLogLog 介绍
基础使用
添加元素
总结小便条

本章主题

关键词

为什么要使用 HyperLogLog？

在我们实际开发的过程中，可能会遇到这样一个问题，当我们需要统计一个大型网站的独立访问次数时，该用什么的类型来统计？

如果我们使用 Redis 中的集合来统计，当它每天有数千万级别的访问时，将会是一个巨大的问题。因为这些访问量不能被清空，我们运营人员可能会随时查看这些信息，那么随着时间的推移，这些统计数据所占用的空间会越来越大，逐渐超出我们能承载最大空间。

例如，我们用 IP 来作为独立访问的判断依据，那么我们就要把每个独立 IP 进行存储，以 IP4 来计算，IP4 最多需要 15 个字节来存储信息；

例如：110.110.110.110。当有一千万个独立 IP 时，所占用的空间就是 15 bit*10000000 约定于 143MB，但这只是一个页面的统计信息，假如我们有 1 万个这样的页面，那我们就需要 1T 以上的空间来存储这些数据，而且随着 IP6 的普及，这个存储数字会越来越大，那我们就不能用集合的方式来存储了，这个时候我们需要开发新的数据类型 HyperLogLog 来做这件事了。

HyperLogLog 介绍

HyperLogLog（下文简称为 HLL）是 Redis 2.8.9 版本添加的数据结构，它用于高性能的基数（去重）统计功能，它的缺点就是存在极低的误差率。

HLL 具有以下几个特点：

能够使用极少的内存来统计巨量的数据，它只需要 12K 空间就能统计 2^64 的数据；
统计存在一定的误差，误差率整体较低，标准误差为 0.81%；
误差可以被设置辅助计算因子进行降低。

基础使用

HLL 的命令只有 3 个，但都非常的实用，下面分别来看。

添加元素

127.0.0.1:6379> pfadd key "redis"
(integer) 1
127.0.0.1:6379> pfadd key "java" "sql"
(integer) 1

总结小便条

本篇文章主要讲了以下几点内容：

本章回顾暂时就到这了，如果还有点晕，那就把文章里所有引用的案例代码再敲几遍吧。拜拜~

这篇关于108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —— HyperLogLog的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —— HyperLogLog

Redis 的基数统计算法 —— HyperLogLog

本章主题

关键词

为什么要使用 HyperLogLog？

HyperLogLog 介绍

基础使用

添加元素

总结小便条

相关文章

Redis 的 SUBSCRIBE命令详解

python获取指定名字的程序的文件路径的两种方法

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

Python实现批量CSV转Excel的高性能处理方案

Python中 try / except / else / finally 异常处理方法详解

Python中logging模块用法示例总结

Python实现精确小数计算的完全指南

使用Python实现Word文档的自动化对比方案

深度解析Python中递归下降解析器的原理与实现

Three.js构建一个 3D 商品展示空间完整实战项目

108. Python语言 的 项目前导(上) 之 Redis 第九章 ：Redis 的 基数统计算法 —— HyperLogLog

Redis 的 基数统计算法 —— HyperLogLog

本章主题

关键词

为什么要使用 HyperLogLog？

HyperLogLog 介绍

基础使用

添加元素

总结小便条

相关文章

108. Python语言的项目前导(上) 之 Redis 第九章：Redis 的基数统计算法 —— HyperLogLog

Redis 的基数统计算法 —— HyperLogLog