多媒体技术应用之声音编码技术分析

作者：时间：2012-03-28 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

前言

本文引用地址：https://www.eepw.com.cn/article/165786.htm

多媒体数据类型主要有一下几个方面：

·图形和图像：图像由象素组成;图形由图元组成

文本:最基本的，有多中编码方式， ASCII码，中文的GB码等等

音频：WAV文件是计算机中最基础的声音记录形式，对声波信号进行采样，采样后经过量化形成数字信号。MIDI格式的数据记录的实际是乐谱（数字音视频技术）。

·动画和视频：动画是用计算机生成一系列可供实时演播的连续画面技术。视频是由一幅幅拍摄下来的真实画面序列组成。

通常情况下，我们将利用计算机技术把文本、图像、图形、动画、音频及视频等多种媒体综合一体化，使之建立起逻辑上的联系，并能够对它们获取，编码，编辑，处理，存储，传输和再现的技术称之为多媒体技术。在实际生活中多媒体技术应用是非常广泛的，下面小编以多媒体技术中声音编码技术为例（音视频技术），详细介绍实际生活中有关多媒体技术应用的相关知识。

1.G.721 ADPCM编码器

ADPCM 是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术。

CCITT 为此制定了 G.721 推荐标准 , 这个标准叫做 32kb/s 自适应差分脉冲Differential Pulse Code Modulation to 24and 40kb/s for Digital Circuit Multiplication Equipment Application , 使用该标准的编码器的数据率可降低到 40kb/s 和24kb/s 。

CCITT 推荐的 G.721 ADPCM 标准是一个代码转换系统。它使用 ADPCM 转换技术 , 实现 64kb/s A 律或μ律 PCM 速率和 32kb/s 速率之间的相互转换。

2.子带编码 (SBC)

子带编码主要过程是:

①使用一组带通滤波器 (band-pass filter ,BPF) 把输入音频信号的频带分成若干个连续的频段 , 每个频段称为子带。

②对每个子带中的音频信号采用单独的编码方案去编码。

③在信道上传送时 , 将每个子带的代码复合起来。

④在接收端译码时 , 将每个子带的代码单独译码 , 然后把它们组合起来 , 还原成原来的音频信号。

采用对每个子带分别编码的好处：

第一.对每个子带信号分别进行自适应控制,量化阶(quantization step) 的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化 , 以减少总的量化噪声。

·第二,可根据每个子带信号在感觉上的重要性 , 对每个子带分配不同的位数 , 用来表示每个样本值。例如 ,在低频子带中,为了保护音调和共振峰的结构,就要求较小的量化阶、较多的量化级数, 即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数。

3. 子带-自适应差分脉冲编码调制(SB-ADPCM)

采样率为 8kHz 、 8 位 / 样本、数据率为 64kb/s 的 G.711 标准是 CCITT 为话音信号频率为 (300～3400)Hz制定的编译码标准, 这属于窄带音频信号编码。现代的话音编码技术已经可以减少数据率 ,而又不至于显著降低音质。 CCITT 推荐的 8KHz 采样率、 4 位 / 样本、 32kb/s 的 G.721 标准, 以及 G.721 的扩充标准 G.723, 都说明了话音压缩编码技术的进展。

G.722 是 CCITT 推荐的音频信号编码译码标准。该标准是描述音频信号带宽为 7kHz、数据率为 64kb/s 的编译码原理、算法和计算细节。

G.722 的主要目标是保持 64kb/s 的数据率 , 而音频信号的质量要明显高于 G.711 的质量。 G.722 标准把音频信号采样频率由 8kHz 提高到 16KHz, 是 G.711PCM 采样率的 2 倍 , 因而要被编码的信号频率由原来的 3.4kHz 扩展到 7kHz 。这就使音频信号的质量有很大改善 , 由数字电话的话音质量提高到调幅 (AM) 无线电广播的质量。对话音信号质量来说 , 提高采样率并无多大改善 , 但对音乐一类信号来说 , 其质量却有很大提高。

G.722编译码系统采用自带自适应差分脉冲编码调制技术，把频带分成两个等带宽的子代分别是高频子带和低频子带。在每个等带宽的子带中的信号都用ADPCM进行编码。

4.G.722 SB-ADPCM编译码器

为了适应可视电话会议日益增长的迫切需要 ,1988年CITT 为此制定了G.722 推荐标准, 叫做数据率为 64kb/s 的 7KHz 声音信号编码—— 7kHz Audio-coding with 64kb/s。这个标准把话音信号的质量由电话质量提高到AM 无线电广播质量, 而其数据传输率仍保持为 64kb/s 。

宽带话音是指带宽在 (50～7000)Hz的话音 , 这种话音在可懂度和自然度方面都比带宽为 (300～3400)Hz 的话音有明显的提高, 也更容易识别对方的说话人。

5. 线性预测编码(LPC)

线性预测编码是一种非常重要的编码方法。从原理上讲 ,LPC 是通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用 LPC 分析得到的参数 , 通过话音合成器重构话音。

合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型。时变线性滤波器既当作预测器使用 , 又当作合成器使用。分析话音波形时 , 主要是当作预测器使用。随着话音波形的变化，周期性地使模型地参数和激励条件适合新的要求。

多媒体技术应用前景及展望

多媒体技术应用的前景

家庭教育和个人娱乐是目前国际多媒体市场的主流

内容演示和管理信息系统是多媒体技术应用的重要方面

·多媒体通信和分布式多媒体系统是多媒体技术今后的发展方向

多媒体技术应用发展方向：

一是计算机系统本身的多媒体化;

二是多媒体技术与点播电视、智能化家电、识别网络通信等技术互相结合，使多媒体技术进入教育、咨询、娱乐。企业管理和办公室自动化等领域;