新闻中心

EEPW首页 > 模拟技术 > 设计应用 > 音频编码和解码原理

音频编码和解码原理

作者:时间:2012-11-07来源:网络收藏
分配以较小的编码比特。其次,通过合理分配不同子带的比特数,可控制总的重建误差频谱形状,通过与声学心理模型相结合,可将噪声频谱按人耳主观噪声感知特性来形成。于是,利用人耳听觉掩蔽效应可节省大量比特数。
在采用子带编码时,利用了听觉的掩蔽效应进行处理。它对一些子带信号予以删除或大量减少比特数目,可明显压缩传输数据总量。比如,不存在信号频率分量的子带,被噪声掩蔽的信号频率的子带,被邻近强信号掩蔽的信号频率分量子带等,都可进行删除处理。另外,全系统的传输信息量与信号的频带范围、动态范围等均有关系,而动态范围则决定于量化比特数,若对信号引入合理的比特数,可使不同子带内按需要给以不同的比特数,也可压缩其信息量。

二、MPEG-1方框图

1、MPEG-1的依据
MPEG-1音频压缩编码标准采用了心理学算法。利用感知模型删去那些听觉不灵敏的声音数据,而使重建的声音质量无明显下降。它采用子带编码技术,根据心理声学模型取得不同子带的听觉掩蔽阈值;对各子带的取样值进行动态量化。它根据不同频段上大音量信号所引起的小音量信号掩蔽阈值的变化规律,对不同频段给以不同的量化步长,以便保留主要信号,而舍弃对听觉效果影响很小的成分,经过数据压缩,可取得合理的比特流,将原来大约1.5Mbit/s的声音传输码率减少到0.3Mbit/s,即压缩率可达到1/5。

2、编码流程
图2.3.2是基于MUSICAM(掩蔽模式通用子带编码和多路复用)的MPEG-1音频压缩编码方框图。输入信号是经过取样的二进制PCM数字音频信号,取样频率可以取44.1KHz、48KHz或32KHz,该音频数码信号的码值与原来采样信号的幅度、频率成正比。
音频编码和解码原理

数字音频信号首先进入数字滤波器组,它被分成等带宽的32个子频带,可由数字滤波器输出32个子带数据信号。这种处理方法与图像编码信号进行DCT变换的作用相似,但不是像图像信号那样分为64种余弦频率信息,这里仅分成32个子带,即将音频数据流改为32种频率的组合。声音的分解力低于图像,这种处理方法是可行的。然后,对32个子带的伴音数据进行再量化,以便再压缩数据量。对于各个子频带的量化步长不相同,量化步长是根据人耳的听觉阈值和掩蔽效应而确定的。经过量化处理的已压缩数据,保留了伴音信息的主体部分,而舍弃了听觉效果影响较小的伴音信息。
进入编码系统的输入信号,分流部分信号送到并列的1024点快速傅利叶变换器(FFT)进行变换,它检测输入信号每一个瞬间取样点在主频谱分量频域的分布的强度,经变换的信号送到心理声学模型控制单元。根据听觉心理声学测量统计结果,可以归纳出一个心理声学控制对照表格,并按照此表格制成控制单元,而单元电路可以集中地反映出人耳的阈值特性和掩蔽特性。
经过量化的32个子频带数据已经被压缩,还要加上比例因子、位分配信息等辅助信息,共同加到1位流格式化单元,编码成为两个层次的伴音编码信号。它既含有32个子频带的伴音数码,又带有这些数码所对应的位分配数据和不同频带数据的强弱比例因子。待将来数据时,可根据各子频带的数据恢复声音信号,以及压缩时码位分配和强弱比例情况,在进行反量化时,参照压缩时的程序进行还原。
可见,伴音的压缩编码和图像处理一样,也要经过变换、量化、码位压缩等处理过程,它运用了许多数学模型和心理听觉测量的统计数据,对32个子频带和各个层次信号的处理也各有不相同的取样速率。实际的心理听觉模型和适时处理控制过程十分复杂。这些算法细节都已按硬件方式被固化在芯片中,这些内容不能再改变。

3、伴音与图像的同步
图像和声音信号的压缩方法有许多不同,图像数据量又远远大于声音数据量,两者传送的数据码率大不相同。每传送14~15个视频数据包才传送1个音频数据包,而播放声音和图像的内容又必须作到良好同步,否则将无法保证视听统一的效果。
为了作到声图同步,MPEG-1采用了独立的系统时钟(简称为STC)作为编码的参照基准,并将图像和声音的数据分为许多播放单元。例如,将图像分为若干帧,将声音分为若干段落。在数据编码时,在每个播放单元前面加置一个展示时标(PTS),或者加置一个时标(DTS)。当这些时标出现时,表示前一个播放单元已经结束,一个新的图像和声音播放单元立即开始。在播放相互对应的同一图像单元和声音单元时,可实现互相同步。
为了使整个系统在时钟在编码和重放时,声图有共同的时钟基准,又引入系统参考时钟SCR的概念。系统参考时钟是一个实时时钟,其数值代表声图的实际播放时间,用它作为参照基准,以保证声图信号的传输时间保持一致。实时时钟SCR必须与生活中的真实时间一致,要求它的准确度很高,否则可能发生声音和图像都播快或播慢的现象。为了使SCR时间基准稳定、准确,MPEG-1采用了系统时钟频率SCF,以它作为定时信息的参照基础。SCF系统时钟的频率是90KHz,频率误差为90KHz±4.5KHz。声图信号以SCF为统一的基准,其它定时信号SCR、PTS、DTS也是以它为基础。

三、其它MPEG标准的

1、MPEG-2音频编码方框图
MPEG-1是处理双声道立体声信号,而MPEG-2是处理5声道(或7声道)环绕立体声信号,它的重放效果更加逼真。
图2.3.3是MPEG-2音频编码方框图。它输入互相独立的5声道音频信号,有前置左、右主声道(L、R),前置中央声道(C),还有后置左、右环绕声道(LS、RS)。各声源经过模-数转化后,首先进入子带滤波器,每一声道都要分割为32个子频带,各子带的带宽均为750Hz。为了兼容MPEG-1、普通双声道立体声和环绕模拟立体声等编码方式,原来按MPEG-1编码的立体声道能够扩展为多声道,应当包括所有5声道的信息,为此设置了矩



关键词: 音频编码 解码

评论


相关推荐

技术专区

关闭