数字音频技术与杜比AC-3

作者：时间：2007-03-09 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要：介绍了杜比公司开发的AC-3数字音频压缩码技术的原理和编解码过程。关键词：数据压缩感知型编码 AC-3编码 AC-3解码随着人们对多媒体图像和声音的要求越来越高，在高清晰数字电视（HDTV）和数字电影中不仅应有高质量的图像，也应当具有CD质量的立体声。因为用数字方法记录声音比用模拟方法记录声音具有更强的优势，例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。但是数字声音最大的缺陷是记录的数据量大，表现在两个方面：其一是在传输过程中，传输数字声音需要占用很宽的传输带宽；其二是在存储过程中，需要占用大量的存储空间。所以在数字音频中需要采用数字音频压缩技术，对音频数据进行压缩。杜比AC-3提供的数字音频压缩编码技术具有较高的编码效率；而由5个全频域声道和1个超低音声道组成的AC-3环绕声系统能完美再现高质量的立体声。 1 数字音频编码的原理目前，高品质声音的主流是CD音质，其采样频率为48kHz或44.1kHz，以每个采样点16bit的精度进行编码，其比特率将达到每个通道768kbps(48kHz采样率)和705.6kbps(44.1kHz采样率)，双声道立体声分别需要1.54Mbps和1.41Mbps的码率。而如果采用新的音频编码技术，则可以在保持同等音质的前提下，实现64kbps～128kbps速率编码。以44.1K样本/秒计算，相当于每个采样点1.5bit，以如此低的平均信息量能达到接近于CD的高音质，这就是高品质数字音频编码要达到的目的。图1一般来说，数据压缩有两种方法。一种方法是利用信号的统计性质，完全不丢失信息的高效率编码法，称为平均信息量编码或熵编码（entropy coding）。第二种方法是利用接收信号人的感觉特性，省略不必要的信息，压缩信息量，称为感觉编码（perceptual coding）。音频信号的感觉编码是以心理声学原理为基础，利用听觉心理特性，只记录那些能被人的听觉所感知的声音信号，从而达到减少数据量而又降低音质的目的。一般而言，人耳的听觉像20Hz～20kHz带通滤波器，它对不同频率的信号有不同的感知辨别率。相对于高频而言，低频的声音更易新人耳感知，其中尤以对2kHz～4kHz的信号最为敏感，因而形成了图1中的绝对可闻阈曲线。绝对可闻阈是指寂静地听觉可听到的各频段的最低音量。遮蔽效应对于听觉特性有着很大的影响。遮蔽分为同时性的遮蔽和非同时性的遮蔽。前者是频域下的一种现象，指在相近的频率下，强度较大的信号会遮蔽较小的信号。后者也称时间的遮蔽性，是指在短暂的时间间隔内，强度大的信号遮蔽较小的信号，它又分为前遮蔽和后遮蔽。前遮蔽是指强度大的信号遮蔽发生较早的小信号，后遮蔽则是强度大的信号遮蔽发生较晚的小信号。通常前遮蔽的持续时间为20ms，对再前的声音的影响几乎可以忽略；而后遮蔽所产生的效应相对大而且持久，一般可达100～200ms，所以应用更为广泛。典型的听觉心理特性如图1所示的频率特性（左）和时间特性（右）。图1中，噪声A因在绝对可闻阈以上而可闻，但噪声C因在绝对可闻阈以下，故听不到。如左图所示，当有黑线所示的某频率信号存在时，靠近它的本来可以听见的噪声B就变得听不见了，这种现象就是同时性遮蔽效应。而如右图所示，当某时刻有黑线所示的信号存在时，位于其后面的比它小一些的本来可听见的噪声E也变得听不见了，这种现场称为非同时性遮蔽效应。两种效应合成的结果形成了实际的可闻阈。杜比AC-3就是一种感知型编码方式，它把整个音频频带分割成若干个较窄的频段，因为人类的听觉对不同频率的声音具有不同的灵敏度，各频段的宽度并不完全一样。由于有用的信号被划分成狭窄的频频，编码噪声的滤降总是就比较容易。因为对于每个频段来说，该频率以外的所有信号可以全部被滤除掉而不会损伤有用信号。而频段内，剩余噪声信号的频率与有用信号的频率非常接近，这正是遮蔽效应发挥最大作用的区域。从这种意义上说，象AC-3这样的感知型编码系统是一种非常有效的减噪系数。这些被分割成狭窄频段的多路数字音频信号最终还需要被合成一路完整的全频带信号，但每一个频段所占有的数据量并不是平均分配的，编码器内部有一个“听觉遮蔽模块”，可以模拟人的听觉遮蔽效应，它能根据信号的动态特性来决定在某一时刻的数据用量应当如何分配给各频段才是最合适的。频谱密集、音量大的声音元素应该获得较多的数据占有量，那些由于遮蔽效应而听不到的声音则少占用或不占用数据量。 2 AC-3的编解码技术简介 AC-3是在AC-1和AC-2基础上发展起来的多通道编码技术，保留了原AC-2中如窗函数处理、指数变换编码、自适应比特分配等许多特点，还新增了运用立体声多声道的编码技术策略的coupling和rematrix算法。一般而言，立体声的左声道和右声道的信号在听觉上十分相似，存在着许多重复的冗余信息，将这两个声道的信号联合起来加以编码，便可除去冗余的信号且不会影响原来的音质。这里AC-3阵低码率的又一个有效的手法。

图2为AC-3编码器原理框图。AC-3输入PC声音数据，输出压缩后的数码流。编码的第一步是，运用TDAC（Time Domain Aliasing Cancellation）滤波器把时域内的PC取样数据变换成频域内成块的一系列变换系数，每个变换系数以二进制指数形式表示，即由一个指数和一个尾数构成。指数部分经编码后构成了整个信号大致的频谱，又被称为频谱包络。用频谱包括和遮蔽由线的相关性决定每个尾数的比特分配。由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术，因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配；在对尾数的量化过程中，可对尾数进行抖晃处理，抖晃所使用的伪随机数生器的可在不同的平台上获得相同的结果。最后由六个块的频谱包络、粗量化的尾数及相应的参数组成AC-3数据帧格式，连续的帧汇成数码流输出。由时域变换到频域的块长度的选择是指数变换编码的基础。在AC-3中定义了两种长度切换，一种是512个样值点的长块，一种是256个样值点的短块。在信号频谱分析时，对要处理的声道信号块区截取得越长越好，这样可以得到较好的频率分辨力，同时也能得到较高的编码效率。但是较长的数据块可能包含了一些不同一些可能被识别的噪音，如pre-echo。也就是说人耳因时间和频率上存在的遮蔽效应在进行指数变换编码时是有矛质的，不能同时兼顾，必须统筹处理。对于稳态信号，其频率随时间变换缓慢，为提高编码效率，要求滤波器组有好的频率分辨力，即要求一个长区块；而对于快速变化的信号，则要求好的时间分辨力，即要求一个短区块。在编码器中，输入信号在经过3Hz高通滤波器去除直流成分后，再经过一个8kHz的高通滤波器取出高频成分，用其能量与预先设定的阈值相比较，以检测信号的瞬变情况。 AC-3采用基于改良离散余弦变换（MDCT）的自适应变换编码（ATC）算法。虽然在AC-3标准中定义了MDCT变换，但是实际采用一个N/4点的IFFT（快速傅立叶变换），再加上两个简单的Pre-IFFT和Post-IFFT作为调整，以实现一个N点的IMDCT变换。ATC算法的一个重要考虑是基于听觉遮蔽效应的临界频带理论，即在临界频带内一个声音对另一个声音信号的遮蔽效应最明显。因此，划分频带的滤波器组要有足够迅速的频率响应，以此保证临界频带外的噪声衰减足够大，使时域和频率内的噪声限定在遮蔽阈值以下。在AC-3编码器的比特分配技术中，采用了应用广泛的前向和后向自适应比特分配法则。前向自适应方法是编码器计算比特分配，并把比特分配信息明确地编入数据比特流中，其特点是在前端编码过程中使用听觉模型，因此修改模型对接收侧解码过程没有影响；其缺点是降低编码效率，因为要传送比特分配信息而占用了一部分有效比特。后向自适应方法没有得到编码器明确的比特分配信息，而是从数码流中产生比特分配信息，优点是不占用有效比特，因此有更高的传输效率。其缺点是要从接收的数据中计算比特分配，如果计算太复杂会使解码器的成本升高。此外，解码器的算法也会随着编码器听觉模型的改变而改变。AC-3采用混合前向/后向自适应比特分配，在提高码率和降低成本间取得了平衡。

图3为AC-3解码器的原理框图。AC-3解码器的解码原理基本上是编码的逆向过程，首先解码器必须与编码数据流同步，然后从经过数据纠错校验的数码流中分离出控制数据、系统配置参数、编码后的频谱包络及量化后的尾数等内容，根据声音的频谱包络产生比特分配信息，对尾数部分进行反量化，恢复变换系数的指数和尾数，再经过合成滤波器组，把数据由频域变换到时域，最后输出重建的PCM样值信号。通过对AC-3的了解，可以看到AC-3技术充分利用人耳的感官模型，针对不同性质的信号，采取了相应有效的算法，达到了在保证较高音质的前提下实现较高码率的预期目的，是一种非常高效而又经济的数字音频压缩系统。AC-3是美国数字电视系统的强制标准，是欧洲数字电视系统的推荐标准，同时，AC-3还是DVD系统的强制标准。目前我国正在发展和推广数字电视系统，所有有理由相信AC-3技术会有一个不错的应用前景。

新闻中心

数字音频技术与杜比AC-3

评论

相关推荐

技术专区