基于DSP的高速实时语音识别系统的设计
——
1 语音识别的原理
语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息,从中提取对语音识别有用的信息的过程,就是特征提取,特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一模型获得最佳匹配。

1.1 MFCC
语音识别中对特征参数的要求是:
(1) 能够有效地代表语音特征;
(2) 各阶参数之间有良好的独立性;
(3) 特征参数要计算方便,保证识别的实时实现。
系统使用目前最为常用的MFCC(Mel FrequencyCepstral Coefficient,美尔频率倒谱系数)参数。
求取MFCC的主要步骤是:
(1) 给每一帧语音加窗做FFT,取出幅度;
(2) 将幅度和滤波器组中每一个三角滤波器进行Binning运算;
(3) 求log,换算成对数率;
(4) 从对数率的滤波器组幅度,使用DCT变换求出MFCC系数。

本文中采用12阶的MFCC,同时加过零率和delta能量共14维的语音参数。
1.2 DTW
语音识别中的模式匹配和模型训练技术主要有DTW(Dynamic Time Warping,动态时间弯折)、HMM(HideMarkov
Model,隐马尔科夫模型)和ANN(Artificial Neu-ral Network,人工神经元网络)。
DTW是一种简单有效的方法。该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度,即失真距离。
设测试语音和参考语音用T和R表示,他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维,因此T,R分别为N linux操作系统文章专题:linux操作系统详解(linux不再难懂)
评论