基于Huffman和LZ77压缩(三)LZ77思路分析

2023-10-24 05:20

本文主要是介绍基于Huffman和LZ77压缩(三)LZ77思路分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Huffman压缩详细分析

LZ77: 基于重复语句的压缩

1 什么是LZ77

1977年两个以色列人提出的基于重复语句上的通用的压缩算法--------将重复语句替换成更短的<长度, 距离, 下个字符串首字母>对的方式。 真正的LZ77用的是一个三元组(长度距离对 + 下一个语句的首字母 )

在这里插入图片描述

为什么叫基LZ77算法的压缩?

上边介绍了 原LZ77 的处理方式:
<长度, 距离, 下个字符串首字母> 三字节

我们发现:下个字符串的首字母对压缩目的来说没什么帮助,放大看却占了很多空间,因此 我们采用<长度, 距离>的方式

长度距离对 我们仍采用三个字节
长度 :1字节表示
距离 :2字节表示

实现思想:

要压缩文件,必然需要将待压缩文件读到程序的缓冲区中,因此我们需要在程序中维护一段缓冲区

LZ77 :缓冲区的大小 :64K
那么我们也用64K

我们将缓冲区等分为两部分:

查找缓冲区32K:

       1  存放已经压缩完成的数据,2  待压缩的数据中的每个字符串(语句)需要在该区域中找是否重复3  随着压缩的不断进行,查找缓冲区不断增大 

先行缓冲区32K:

	  1 存放待压缩的数据   2 每次取出一个字符串(语句)去查找缓冲区中匹配3 随着压缩的不断进行,先行缓冲区的大小不断变小

压缩核心是将重复语句替换为长度距离对:

那么重复字符串的长度为几的时候进行长度距离对的替换?

1 确定长度:

用1字节表示
首先 :匹配字符串的长度我们用一个字节存储:范围【0,255】

为什么用一个字节存储:
1: 一个字节能表示的最大长度已经比较大了,
2: 用更长的长度来存储时对压缩率有一定影响,因为匹配串的距离大部分小于255。

2 确定距离

怎么确定距离:
距离是先行缓冲区离查找缓冲区的最远距离

线性缓冲区:32K 查找缓冲区:32K
那么极端距离为64K —> 2^16
所以2字节就能表示

1 确定距离受缓冲区的影响:

查找缓冲区越大,能查找到匹配的概率越大,但匹配查找的时间代价也增大了真正查找长度不会超过32K

2。距离再过远 ,存储长度就得用更多的字节,又浪费了压缩空间。

所以真正查找匹配的范围不会超过32K(一半长度)==>2^3 * K —>2^15 那么我们用两个字节来进行保存长度(2^16)

确定压缩条件

长度为1个字节的语句 : 不压缩
长度为2个字节的语句 : 没必要(长度距离对是3个字节,那么肯定不划算)

所以 :
长度 >=3 时开始匹配替换:
Min_Match_Len =3;
Max_Match_Len =258 (利用了0 ,1,2 用不到的空间)

技术才是硬道理

问题1:如何快速查找匹配?

(查找匹配的时间严重影响压缩时间)
暴力匹配太慢
我们用哈希的思想

哈希 :
首先需要一个哈希表,每次是3个字符进行存储,哈希表中将来保存的是从查找缓冲区中取到的三个字符中首字符 在查找缓冲区中的下标
在这里插入图片描述

问题2 :你可能会想,想要匹配必须先构建哈希彪表 , 构建哈希表肯定得需要遍历一趟来存储哈希表中,这不是又影响了时间吗?

遇到凡事------不要慌~~~

 我们让在哈希表中匹配位置和哈希表的构造进行同步进行就可以了。什么意思呢?边走边构造:哈希表中存0那就是该位置没保存,那么保存在该位置就行了,哈希表中存1的位置就是存在冲突了,冲突那我们一会再来解决冲突。
需要确定哈希函数

字符串哈希函数我们可以网上查一下

 哈希表中匹配位置则需要确定哈希函数,该字符串哈希函数只起将字符串转为唯一整形数字的作用,我们可以网上查这个哈希函数

LZ77 哈希函数:
A(4,5) +b(6,7,8)^B(1,2,3) + B(4,5) + B(6,7,8)^C(1,2,3)+ C(4,5,6,7,8)
A B C 代表第一、二、三个位置
12345678 代表字符的比特位
+是连接起来的意思
^优先于+

由哈希函数可以确定 哈希地址最大有15个比特位。

举个栗子🌰理思路:

🌰:
1 从先行缓冲区中拿到一个字符串abc,
2 通过哈希函数计算在哈希表中的位置
3 到哈希表中取匹配字符串在查找缓冲区的位置

只要三个字符(字符串)相同,那么计算出的哈希地址一定相同,然后就相当于知道了查找缓冲区的位置,于是就可以确定一个长度距离对了

三个字符的组合数量256* 256* 256 ;
哈希表的大小,因为组合方式不一样,哈希函数计算结果必须一一映射

那这样的话?
哈希表必须有2^24个位置,
每个位置存储的是在64K窗口中的下标
64K窗口的下标范围 :【0,2^16】;
每个下标2个字节存储
那么就需要两个字节表示距离.2^24 * 2 ==>32M

**其实查了下资料,还真不是这样搞的。。。**

因为32M的哈希表太大,随着压缩的进行,哈希表中的内容要不断更新,更不好维护。

因此 实际LZ77算法哈希表中的位置个数给2^15 —>32K(其实之前的哈希函数可以推出来哈希地址的范围)

干货来了~

32K的哈希表表必然会存在哈希冲突,那么怎么解决冲突的?

实际缓冲区:64K=32K + 32K

开辟一个同样大的Prev作为处理哈希冲突的空间(32K)

1 为什么Prev和Head一样大?

	因为当匹配暂停时,需要将右窗WSIZE数据导入到左窗中

2 什么时候匹配会暂停?
在这里插入图片描述

匹配暂停发生在线性缓冲区的末尾,当先行缓冲区中剩余的字符数量不足最大匹配长度时,我们认为这次匹配不够完全,因此暂不进行。

怎么做?

1 将先行缓冲区中的32K数据全部导入到查找缓冲区,相当于更新了查找缓冲区

2 从文件中接着读取32K(Wsize )的文件
那么继续从start位置(上次匹配串进行的位置)开始匹配查找

这样存在一个小误区 :你可能会认为这样查找缓冲区不足32K了,会不会出错?

答案是不会的!!

此时查找缓冲区的确是变小了,但倘若在此小区间找不到,那么久默认此串不存在重复,那么就把这个新字符串加入到哈希表中就行了,不用向更远的地方找,损失但性能也是微乎其微的,甚至是有益的!

为什么损失性能微乎其微甚至有益?

首先 查找缓冲区变小,那么查找的更快。
倘若向前接着找的话,也不一定能找到匹配串,这下你明白了吗?

暂时小结一下:

当前存在问题1: 32K的哈希表必然存在哈希冲突
**当前存在问题2:**对于长度大于64K的文件仍无法进行压缩

下一篇:我们来展开探究这两个问题,欢迎持续关注。

点我跳转下一篇

这篇关于基于Huffman和LZ77压缩(三)LZ77思路分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/272961

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

SpringBoot实现文件记录日志及日志文件自动归档和压缩

《SpringBoot实现文件记录日志及日志文件自动归档和压缩》Logback是Java日志框架,通过Logger收集日志并经Appender输出至控制台、文件等,SpringBoot配置logbac... 目录1、什么是Logback2、SpringBoot实现文件记录日志,日志文件自动归档和压缩2.1、

spring-gateway filters添加自定义过滤器实现流程分析(可插拔)

《spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔)》:本文主要介绍spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔),本文通过实例图... 目录需求背景需求拆解设计流程及作用域逻辑处理代码逻辑需求背景公司要求,通过公司网络代理访问的请求需要做请

Java集成Onlyoffice的示例代码及场景分析

《Java集成Onlyoffice的示例代码及场景分析》:本文主要介绍Java集成Onlyoffice的示例代码及场景分析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 需求场景:实现文档的在线编辑,团队协作总结:两个接口 + 前端页面 + 配置项接口1:一个接口,将o