PESQ及其应用

作者：解放军理工大学通信工程学院,赵斐,徐勇,成立新时间：2003-07-16 来源：电子设计应用

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要：本文介绍了基于听觉模型的PESQ(Perceptual evaluation of speech quality)客观音质评价方法。它适用于更宽的网络环境，包括模拟连接、编解码、包丢失和时延变化。

引言
目前能提供主客观相关性较高的音质客观评价方法，都是考虑了人耳的听觉特性，使用听觉感知模型来模拟收听这一过程的。因此当前的主流是使用感知模型来评估非线性和易出错的音频通信系统。
感知语音质量测度(PSQM),在1996年被国际电联ITU-T采纳为P.861建议，1998年，一个基于归一化块测度(MNB)的可选系统作为附件添加到P.861中。MNB是在考虑听过程的基础上，采用MNB方法来模拟人的判断过程，评价结果与主观评价值相关度较高。
Hollier扩展了巴克谱失真(BSD)模型，引领了感知分析测度系统(PAMS)的发展。PAMS是第一个关注端到端行为，包括滤波和变化时延造成的影响的模型。
这些影响，再加上一定类型的编码失真、包丢失和背景噪声，就是引起BSD,PSQM和MNB等早期模型产生不精确得分的原因。因此ITU-T 12研究组进行了一项实验来找到一种新的模型，以期能适应更广泛的编解码器和网络情况，具有更好的性能和表现。在比较中，PAMS和PSQM99(PSQM的更新和扩展版本)两种算法的性能最好，然后就结合了这两种算法产生了一个新的模型，叫做PESQ。2001年2月PESQ被定为P.862建议。

PESQ算法的描述

图1 PESQ模型的结构图

图1为PESQ的结构。开始时两个信号都通过电平调整，再用输入滤波器模拟标准电话听筒进行滤波(FFT)。这两个信号要在时间上对准，并通过听觉变换。这个变换包括对系统中线性滤波和增益变化的补偿和均衡。提取出两个失真参数，在频率和时间上总和起来，映射到对主观平均意见分的预测。
电平调整和IRS滤波
各个待测系统的增益一般差别比较大，而且对参考信号没有确定的校准电平，所以有必要将二者调整到统一、恒定的电平上来。PESQ假定主观听觉级是79dB的常数。感知模型必须考虑人听到的实际声音，所以不管真正的主观测验中是否使用IRS或改进的IRS滤波，在PESQ中使用了类IRS滤波器，起到一个模拟电话手柄的作用。
时间对准
PESQ的时间对准假设系统的时延是分段恒定的。这个假设对广泛的系统，包括基于包传输的VoIP,都是合适的。在静默期间和说话期间时延可以改变。信号对准有以下步骤：
?信号通过窄带滤波，突出对感知重要的部分。这些滤波后的信号只用于时间对准；
?基于包络的延时估计；
?把参考信号按话语分成段；
?对每一段进行基于包络的延时估计；
?对每一段话语进行基于柱状图的、精细的、互相关的延时验证；
?对于说话中的延时改变进行话语分解(splitting)和重定位。
对每一段话语都给出延时估计，然后得出听觉变换要用的一帧一帧的延时。
听觉变换
PESQ中的听觉变换是一个生理声学模型，它把信号变换到时频可感知的响度表达。包括以下步骤：
巴克谱加汉明窗用FFT计算每一帧的瞬时功率谱，每帧重叠50%，即32ms。
频率补偿计算有效话音帧的平均巴克谱值。假设待测系统有恒定的频率响应，参考话音和失真话音间的比率就给出传输函数估计。参考话音使用这个估计值补偿到和失真话音相当，补偿最多不超过±20dB。
增益变化的补偿均衡短时增益变化通过一帧一帧的处理基音功率密度得到部分补偿。每一帧中，计算所有超过听觉门限的基音功率密度值。得到参考信号和失真信号的比值(3×10-4)，比值通过一阶低通滤波器滤波，每一帧的失真信号乘以这个功率比，补偿到和参考信号相当。
响度映射巴克谱映射到响度级(宋)，包括一个频率门限和指数。这样在每一时频单元给出感受到的响度。
干扰密度的计算
参考信号与失真信号间的绝对差值给听觉误差一个测度。在PESQ中，在进行时间和频率上非线性平均之前要经过几步的处理。
如果信号的延时减少了16ms以上，在这种情况下发现在计算客观语音质量时，忽略帧干扰能得到更好的值，因此当这种情况时，帧干扰设为零。
在每一个时频单元都使用一个简单的门限来进行屏蔽，在门限以下的干扰是听不见的，这个值设定为参考函数和失真函数中响度较小的一个的四分之一。门限由绝对响度相减得到，小于零的定为零。PSQM和PSQM99早期的版本在大于一个时频单元的距离上使用屏蔽的方法并不能提高整体的性能，在PESQ中没有被采用。
和P.861 PSQM不同的是，PESQ计算两个不同的误差平均，其中一个有不对称因子，一个没有。PESQ的非对称因子是由失真信号对参考信号在每一时频单元的巴克谱密度比得到的。非对称因子的值如果小于3，则定为零，如果大于12，则定为12。不对称加权的干扰值，通过乘以这个因子得到，结果只计算附加的失真。
时频干扰的总计
理解了这些局部的误差感知，PESQ使用确定误差在时间上和幅度上取得最好的分布方法，在几个时-频尺度上综合了干扰值。干扰值使用一个Lp范数计算。它分为瞬时间隔内的干扰总计和话音持续时间内的干扰总计(约10秒)。瞬时间隔内的干扰总计使用高阶的p值，而话音持续时间内的干扰总计使用低阶的p值。
重定位
在有些情况下，时间定位可能不能正确地确定延时的改变，这样会导致每部分的时延都错了。这可以通过标记错误帧(有一个超过45的对称干扰)，并且五个正确帧中至多有一个错误帧来检测到。
每个错误的部分重新定位，重新计算干扰值。交叉互相关是用来发现新的延时估计值的。重新计算失真信号的听觉变换，发现干扰，对于每一帧来说，如果重新定位，干扰值变的较低，则使用新值。在重定位以后再总计瞬间和整个信号的性能。
计算PESQ的得分
为了训练PESQ，要在三个平均阶段通过使用很多的p值计算很大数量的不同的对称和非对称的参数。先使用参数的线性组合来预测主观MOS分，进一步对每次主观测试进行回归分析说明、解决不同的题目的前后关系和选择的偏好，如第3部分中所讨论的；这一步还用到了线性映射。对所有的候选参数集都进行了选择。这样找到了最优的组合，能给出最好的平均相关系数。这样可以在几百个候选参数中找到最好的。
举例来说，PESQ中用到部分补偿，在增益调制的均衡中，就要避免使用大量的参数来预测质量。只用到两个参数的组合— 一个对称干扰(dSYM)和一个非对称干扰(dASYM)，在预测精度和概括能力上有很好的平衡。然而，由于低维数的模型依靠早先的阶段组合出复杂的感知作用，要求有几个迭代设计。听觉变换中的系数和干扰处理经过优化，找到了最优的参数，然后重复处理过程。下面给出PESQ中映射的分：
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
对于正规的主观测试，得分在1.0和4.5之间。在失真情况严重时，得分可能会低于1.0，但这种情况很少见。

范围和应用
ITU-T相关的资料已证明PESQ是能够给出精确的预测值的，包括以下编解码和误码失真，波形编码(如G.711,G.726),CELP/高于4kbit/s的混合编解码(如G.728),移动编解码/系统(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA)；各种编解码的代码转换，随机的、突发的、包丢失误差。PESQ能够用于编解码或系统评估、选择和优化。
这样PESQ可以广泛的用于现场和模拟网络中端到端测量。背景(环境)噪声和噪声处理，可以通过用PESQ比较干净的、未处理的信号和编码的、经噪声干扰失真的信号评估得到。
用静默来取代语音，也是一种失真，给所有的感知模型在预测MOS分时带来困难。一般前端和后端的50ms的削波(话音激活检测)不会给主观印象带来很大的影响。然而，在话音期间削波，比如包丢失后用静默代替，将严重影响主观感受---每50ms的丢失，MOS分下降一分。PESQ的情况在这两种之间，每50ms的削波通常引起0.5分左右的下降，而不管处于什么位置。对于前端暂时的削波，特别是未察觉的丢失了单词时，PESQ是很敏感的。相反的，PESQ对经常的、短时的削波不很敏感(短时间内语音被静默取代)。在这两种情况下，PESQ与主观MOS分之间的相关性会减弱。
作为一个有固定假设听觉级的只听模型，PESQ一般不应用来评估收听级、侧音/说话人回音，或对话延迟的影响，而且，它也不是供非入侵性测度使用的。其他一些应用的特性还没有得到证明，或者需要部分改变模型。包括：音乐音质；宽带话音；所谓“媒体音频质量”；接受端回声；低于4kbit/s的低比特率编解码器；声学的和电话机参考当量测试。

结语
相对来说，PSQM和MNB只用在窄带编解码测量中，并且对某些类型的编解码、背景噪声和端到端的影响，比如滤波和时延变化给出不精确的预测值。PESQ能提供比P.861模型、PSQM和MNB与主观意见更好的相关性。它能在很广范的条件下对主观质量给出了很精确的预测，包括有背景噪声，模拟滤波，和/或时延变化。PESQ在很多评估电话网络和语音编解码的语音质量等应用中会非常适用。

参考文献
1 Objective quality measurement of telephone-band (300-3400Hz) speech codecs .ITU-T Recommendation P.861,February 1998
2 Hollier, M. P. , Hawksford, M.O. and Guard, D. R. "Characterisation of communications systems using a speech-like test stimulus", Journal of the audio Engineering Society,41(12),1008-1021,1993
3 Rix, A.W., Reynilds, R. and Hollier, M. P. "Perceptual measurement of end-to-end speech quality over audio and packet-based networks" 106th Audio Engineering Society Convention , pre-print no.4873.May 1999
4 陈国,胡修林,张蕴玉,朱耀庭.语音质量客观评价方法研究进展.电子学报.Vol.29,2001.04

新闻中心

PESQ及其应用

评论

相关推荐

技术专区