Rss订阅

首页 »编程综合 » 无损压缩算法:常用数据无损压缩算法分析 »正文

无损压缩算法:常用数据无损压缩算法分析

来源: 发布时间:星期四, 2009年9月10日浏览:0次评论:0

　　引言

　　当今

各种信息系统

数据量越来越大

如何更快、更多、更好地传输和存储数据成为数据信息处理

首要问题

而数据压缩技术则是解决这

问题

重要思路方法

事实上

从压缩软件SoftwareWINRAR到熟知

MP3

数据压缩技术早已应用于各个领域

　　2 数据压缩技术概述

　　本质上压缩数据是

数据自身具有冗余性

数据压缩是利用各种算法将数据冗余压缩到最小

并尽可能地减少失真

从而提高传输效率和节约存储空间

　　数据压缩技术

般分为有损压缩和无损压缩

无损压缩是指重构压缩数据(还原

解压缩)

而重构数据和原来数据完全相同

该思路方法用于那些要求重构信号和原始信号完全

致

场合

如文本数据、

和特殊应用场合

图像数据(如指纹图像、医学图像等)

压缩

这类算法压缩率较低

般为1／2~1／5

典型

无损压缩算法有:Shanno-Fano编码、Huffman(哈夫曼)编码、算术编码、游程编码、LZW编码等

而有损压缩是重构使用压缩后

数据

其重构数据和原来数据有所区别

但不影响原始资料表达信息

而压缩率则要大得多

有损压缩广泛应用于语音、图像和视频

数据压缩

常用

有损压缩算法有 PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换、小波变换等)、插值和外推(空域亚采样、时域亚采样、自适应)等

新

代

数据压缩算法大多采用有损压缩

例如矢量量化、子带编码、基于模型

压缩、分形压缩和小波压缩等

　　3 常用数据无损压缩算法

　　3．1 游程编码

　　这种数据压缩思想:如果数据项d在输入流中连续出现n次

则以单个

对nd来替换连续出现n次

数据项

这n个连续出现

数据项叫游程n

这种数据压缩思路方法称游程编码(RLE)

其实现流程如图1所示

RLE算法具有实现简单

压缩还原速度快等优点

只需扫描

次原始数据即可完成数据压缩

其缺点是呆板

适应性差

区别

文件格式

压缩率波动大

平均压缩率低

实战表明

RLE能够压缩复杂度不高

原始点阵图像

　　图片看不清楚？请点击这里查看原图(大图)

　　3．2 基于字典编码技术

LZW算法

　　LZW 算法是LZ78

流行变形

由Terrv Welch在1984年开发

LZW算法首先将字母表中

所有

化到字典

常用8位

在输入任何数据前优先占用字典

前256项 (0～255)

LZW编码

原理:编码器逐个输入

并累积

个

串I

每输入

个

则串接在I后面

然后在字典中查找I；只要找到I

该过程继续执行搜索

直到在某

点

添加下

个

x导致搜索失败

这意味着

串I在字典中

而Ix(

x串接在I后)却不在

此时编码器输出指向

串

字典指针；并在下

个可用

字典词条中存储

串Ix；把

串I预置为x

其压缩流程如图2所示

　　图片看不清楚？请点击这里查看原图(大图)

字典

前256项被占用

因此字典指针必须高于8位

由于LZW算法

字典中

串每次仅增加

个

因此

要获得长

串则需较长时间

这样才能较好地压缩．IZW编码能够适应输入数据

　　LZW算法和其他算法相比具有自适应

特点

即可以根据压缩内容区别来建立区别字典

以减少冗余度

提高压缩比；并且解压时这个字典无需和压缩代码同时传送

而是在解压过程中逐步建立和压缩时完全相同

字典

从而完整、准确地恢复被压缩内容

因此

LZW算法是

种解码速度和压缩性能较好

压缩算法

　　实现LZW算法需要考虑以下几点:

　　(1)字典建立(数据结构和字典大小) LZW字典

数据结构是

棵多叉树

字典越大

代替

子串越多

但应用中字典容量则受

定限制

要权衡利弊选择合适

字典

　　(2)字典维护和更新字典指针由哈希

生成

正确选择哈希

非常重要

这将影响执行效率

正确

哈希

所产生

重复值极少

这样检索

串所需比较次数也较少

从而可有效提高代码

执行效率

　　当字典满时

字典

维护和更新对压缩率也是至关重要

可重新从

状态建立字典；也可监测压缩率

当压缩率变坏时全部或部分清除字典

　　(3)压缩数据代码长度压缩时

输入数据

般是8位

但压缩后

输出是转化

串代码

其中0～255为8位码

256为9位码

25l～512为10位码

l 024为11位码

解压则相反

需要位操作

因此

输出可以从9位码开始

随着字典内容

增加

码字也逐渐增加

这样可提高执行效率

但在译码时需考虑不等长码

识别

可通过设置标志位来解决

　　3．3 基于哈夫曼编码原理

压缩算法

　　哈夫曼算法

过程为:统计原始数据中各

出现

频率；所有

按频率降序排列；建立哈夫曼树:将哈夫曼树存入结果数据；重新编码原始数据到结果数据

哈夫曼算法实现流程如图3所示

　　哈夫曼算法

实质是针对统计结果对

本身重新编码

而不是对重复

或重复子串编码

实用中．符号

出现频率不能预知

需要统计和编码两次处理

所以速度较慢

无法实用

而自适应(或动态)哈夫曼算法取消了统计

可在压缩数据时动态调整哈夫曼树

这样可提高速度

因此

哈夫曼编码效率高

运算速度快

实现方式灵活

　　采用哈夫曼编码时需注意

问题:

　　(1)哈夫曼码无

保护功能

译码时

码串若无错就能正确译码；若码串有错应考虑增加编码

提高可靠性

　　(2)哈夫曼码是可变长度码

因此很难随意查找或

压缩文件中间

内容

然后再译码

这就需要在存储代码的前加以考虑

　　(3)哈夫曼树

实现和更新思路方法对设计非常关键

　　3．4 基于算术编码

压缩算法

　　算术编码压缩也是

种根据

出现概率重新编码

压缩方案

该思想和哈夫曼编码有些相似

但哈夫曼编码

每个

需用整数个位表示

而算术编码思路方法则无这

限制

它是将输入流视为整体进行编码

虽然算术编码压缩率高．但运算复杂

速度慢

　　4 结语

　　游程编码和LZW编码属于基于字典模型

压缩算法

而哈夫曼编码和算术编码属于基于统计模型

压缩算法

前者和原始数据

排列次序有关而和其出现频率无关

后者则正好相反

这两类压缩思路方法算法思想各有所长

相互补充

许多压缩软件Software结合了这两类算法

例如WINRAR就采用了字典编码和哈夫曼编码算法

这几种数据无损压缩算法应用广泛

设计人员可以根据具体应用中

数据流特点来改进算法从而开发适用

软硬件压缩器

专注于互联网--专注于架构

首页 »编程综合 » 无损压缩算法:常用数据无损压缩算法分析 »正文

无损压缩算法:常用数据无损压缩算法分析

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章