一款语音口令识别系统的设计实现
CDHMM的B不再是一个矩阵,而是一组观察值概率密度函数,由M个连续高斯密度函数描述:
本文引用地址:https://www.eepw.com.cn/article/234840.htm

N(o,ujk,∑jk)为多维高斯概率密度函数,o是观察矢量序列,即从语音中提取的特征矢量参数(o1,o2,…,ot),t为观察矢量序列的时间长度。ujk,∑jk分别为高斯分布的均值和方差参数,Cjk为高斯分布的权值,满足约束条件

CDHMM参数估计采用“分段K-平均法”。初始模型可以随机选取,由

是改进后的模型,再将作为初始值,重新估计。
基于“分段K-平均法”的CDHMM参数估计具体过程为:
(1)设置模型参数初始值λ=(π,A,B)。
(2)根据此λ用Viterbi算法将输入的训练语音数据划分为最可能的状态序列,利用状态序列估计参数A。

(3)用分段K-平均法对B进行重新估计,即将第二步得到的每一种状态的训练语音数据搜集在一起并对其特征进行统计,从而得到B。

对于概率密度函数由若干正态分布函数线性相加的CDHMM系统,每个状态θj(1≤j≤N)的概率密度函数bj(X)由K个正态分布函数线性相加而成,这样可以把每一状态语音帧分成K类,然后计算同一类中诸语音帧矢量X的均值矢量,方差矩阵∑jk和混合密度函数中各概率密度函数的权重系数 Cjk。
(4)由(2)和(3)估计的CDHMM参数作为初值,利用重估公式对CDHMM参数进行重估,得到参数。
(5)利用(4)所得的计算,并与p(O/λ)相比较。如果差值小于预定的阈值或迭代次数超过预定的次数,即说明模型参数已经收敛,无需进行重估计算,可将作为模型参数输出。反之,若差值超出阈值或迭代未到预定的次数,则将计算结果作为新的初值,重复进行下一次迭代。
3 结束语
论文建立了一种基于嵌入式系统的语音口令识别系统,并且对上升、下降等14条口令进行测试,每条语音先切除静音,预加重,然后通过 Hamming窗分帧处理,帧长和帧移分别为20ms和10ms,然后对每一帧语音信号提取16MFCC+16AMFCC共32维参数作为特征矢量。该语音口令识别系统达到了实时的要求,可以使语音口令识别系统广泛应用于便携式设备中。
评论