基于DTW的编码域说话人识别研究

作者：时间：2010-10-14 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

说话人识别又被称为话者识别，是指通过对说话人语音信号的分析处理，自动确认说话人是否在所记录的话者集合中，以及进一步确认说话人的身份。说话人识别的基本原理如图1所示。

本文引用地址：https://www.eepw.com.cn/article/166450.htm

按照语音的内容，说话人识别可以分为文本无关的(Text-Independent)和文本相关的(Text-Dependent)两种。文本无关的识别系统不规定说话人的发音内容，模型建立相对困难，但用户使用方便。与文本有关的说话人识别系统要求用户按照规定的内容发音，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果。
　随着网络技术的发展，通过Internet网络传递语音的网络电话VoIP(Voice over IP)技术发展迅速，已经成为人们日常交流的重要手段，越来越多的用户抛弃传统的通信方式，通过计算机网络等媒介进行语音交流。由于VoIP工作方式的特点，语音在传输中经过了语音编译码处理，VoIP设备端口同时要处理多路、海量的压缩话音数据。所以VoIP说话人识别技术主要研究的是如何高速、低复杂度地针对解码参数和压缩码流进行说话人识别。
　现有的针对编码域说话人识别方法的研究主要集中在编码域语音特征参数的提取上，香港理工大学研究从G.729和G.723编码比特流以及残差中提取信息，并采用了分数补偿的方法。中国科学技术大学主要研究了针对AMR语音编码的说话人识别。西北工业大学在说话人确认中针对不同的语音编码差异进行了补偿算法研究，并且研究了直接在G.729编码的比特流中提取参数的方法。说话人模型则主要采用在传统说话人识别中应用最广泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的应用效果和混元数目密切相关，在保证识别率的基础上，其处理速度无法满足VoIP环境下高速说话人识别的需求。
　本文研究VoIP语音流中G.729编码域的说话人实时识别,将DTW识别算法成功应用在G.729编码域的文本相关的说话人实时识别。
1 G.729编码比特流中的特征提取
1.1 G.729编码原理
　ITU－T在1996年3月公布G.729编码，其编码速率为8 kb/s，采用了对结构代数码激励线性预测技术(CS-ACELP)，编码结果可以在8 kb/s的码率下得到合成音质不低于32 kb/s ADPCM的水平。 G.729的算法延时为15 ms。由于G.729编解码器具有很高的语音质量和很低的延时，被广泛地应用在数据通信的各个领域，如VoIP和H.323网上多媒体通信系统等。
G.729的编码过程如下：输入8 kHz采样的数字语音信号先经过高通滤波预处理,每10 ms帧作一次线性预测分析，计算10阶线性预测滤波器系数，然后把这些系数转换为线谱对（LSP）参数，采用两级矢量量化技术进行量化。自适应码本搜索时，以原始语音与合成语音的误差知觉加权最小为测度进行搜索。固定码本采用代数码本机构。激励参数（自适应码本和固定码本参数）每个子帧（5 ms，40个样点）确定一次。
1.2 特征参数提取
直接从G.729 编码流中按照量化算法解量化可以得到LSP参数。由于后段的说话人识别系统还需要激励参数，而在激励参数的计算过程中经过了LSP的插值平滑，所以为了使特征矢量中声道和激励参数能准确地对应起来，要对解量化的LSP参数采用插值平滑。

新闻中心

基于DTW的编码域说话人识别研究

评论

相关推荐

技术专区