数据的冗余性
三.数据的冗余性 数据之所以能够压缩是基本原始信源的数据存在着很大的冗余度。一般来说,多媒体数据中存在以下种类的数据冗余。 1. 空间冗余 这是图像数据中经常存在的一种冗余。在同一幅图像中,规则物体和规则背景(所谓规则是指表面颜色分布是有序的而不是完全杂乱无章的)的表面物理特征具有相关性,这些相关性的光成像结构在数字化图像中就表现为数据冗余。 2. 时间冗余 这是序列图像(电视图像、动画)和言语数据中所经常包含的冗余。图像序列中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关性,这反映为时间冗余。同理,在言语中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全在时间上独立的过程,因而存在时间冗余。 3. 信息熵冗余 信息熵是指一组数据所携带的信息量。它一般定义为:H= - http://course.cug.edu.cn/21cn/%E5%A4%9A%E5%AA%92%E4%BD%93%E6%8A%80%E6%9C%AF/Images/Mmt03_75.gif
其中N为数据类数或码元个数,Pi为码元 Yi 发生的概率。由定义,为使单数据量d接近于或等于H,应设: http://course.cug.edu.cn/21cn/%E5%A4%9A%E5%AA%92%E4%BD%93%E6%8A%80%E6%9C%AF/Images/Mmt03_79.gif 其中 b(Yi)是分配给码元Yi 的比特数,理论上应取 b(Yi) = -log2 pi。实际上在应用中很难估计出 {p0,p1,...,pn-1}。因此一般取 http://course.cug.edu.cn/21cn/%E5%A4%9A%E5%AA%92%E4%BD%93%E6%8A%80%E6%9C%AF/Images/Mmt03_85.gif 例如,英文字母编码码元长为7比特,即
http://course.cug.edu.cn/21cn/%E5%A4%9A%E5%AA%92%E4%BD%93%E6%8A%80%E6%9C%AF/Images/Mmt03_86.gif=7
这样所得的d 必然大于H,由此带来的冗余我们称为信息熵冗余或编码冗余。 4. 结构冗余 有些图像从大的区域上看存在着非常强的纹理结构,例如布纹图像和草席图像,我们说它们在结构上存在冗余。 5. 知识冗余 有许多图像的理解与某些基础知识有相当大的相关性。例如,人脸的图像有固定的结构,嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正面图像的中线上等等。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。 6. 认知(视觉听觉)冗余 人类视觉系统对于图像场的任何变化,并不是都能感知的。例如,对于图像的编码和解码处理时,由于压缩或量化截断引入了噪声而使图像发生了一些变化,如果这些变化不能为视觉所感知,则仍认为图像足够好。事实上人类视觉系统一般的分辨能力约为26灰度等级,而一般图像量化采用28灰度等级,这类冗余我们称为视觉冗余。对于听觉,也存在类似的冗余。7. 其他冗余 例如由图像的空间非定常特性所带来的冗余。 数据压缩就是去掉信号数据的冗余性。数据压缩常常又称为数据信源编码,或简称为数据编码。与此对应,数据压缩的逆过程称为数据解压缩,也称为数据信源解码,或简称为数据解码。注: 严格地说数据编码包括信源编码和信道编码。信源编码指的是为了表示和(或)压缩从信号源产生出来的信号而进行的编码,主要解决有效性问题。信道编码是为了使处理过的信号在传输过程中(通信,即从“这里”传输到“那里”;或存储,即从“现在”传输到“将来”)不出错或少出错,即使出了错也能自动检错或尽量纠错而进行的编码,主要解决可靠性问题。我们在这里主要指的是信源编码。
页:
[1]