若有一个a、b、c、d四种符号的单符号信源,待编序列为S=abda,已知: 图1
符号a b c d
符号概率Pi 0.100 0.010 0.001 0.001
(以二进位小数表示)
累积概率∑pi 0.000 0.100 0.110 0.111
按照一定精度的数值作为序列的算术编码,实质上是分割单位区间的过程。实现它,必须完成两个递推过程:一个代表码字C(·),另一个代表区间宽度为A(·)。若记SXi表示S的增长(即S后增加一个符号Xi)序列。则有图1 。 图2
若记λ为空序列,有A(λ)=1,C(λ)=0,则有如图2 。
并依次求得:C(abd)= 010111, A(abd)= 0.000001
C(abda)= 0.010111 ,A(abda)= 0.0000001 该编码过程可以用图3所示的单位区间划分的过程来描述。
译码为逆递推过程,可以通过对编码后的数值进行比较来实现。即判断C(S)落入哪一个区间,最后得出一个相应的符号序列S'=Ma=S。 图3
实际的编译码过程比较复杂,但原理相同,算术编码的理论性能也可使平均符号代码长度接近符号熵,而且对二元信源的编码实现比较简单,故受重视。中国将它应用于报纸传真的压缩设备中,获得了良好的效果。
在给定符号集和符号概率的情况下,算术编码可以给出接近最优的编码结果。使用算术编码的压缩算法通常先要对输入符号的概率进行估计,然后再编码。这个估计越准,编码结果就越接近最优的结果。
例: 对一个简单的信号源进行观察,得到的统计模型如下:
60% 的机会出现符号 中性
20% 的机会出现符号 阳性
10% 的机会出现符号 阴性
10% 的机会出现符号 数据结束符. (出现这个符号的意思是该信号源'内部中止',在进行数据压缩时这样的情况是很常见的。当第一次也是唯一的一次看到这个符号时,解码器就知道整个信号流都被解码完成了。)
算术编码可以处理的例子不止是这种只有四种符号的情况,更复杂的情况也可以处理,包括高阶的情况。所谓高阶的情况是指当前符号出现的概率受之前出现符号的影响,这时候之前出现的符号,也被称为上下文。比如在英文文档编码的时候,例如,在字母Q或者q出现之后,字母u出现的概率就大大提高了。这种模型还可以进行自适应的变化,即在某种上下文下出现的概率分布的估计随着每次这种上下文出现时的符号而自适应更新,从而更加符合实际的概率分布。不管编码器使用怎样的模型,解码器也必须使用同样的模型。
编码过程的每一步,除了最后一步,都是相同的。编码器通常需要考虑下面三种数据: