基于DSP的高速实时语音识别系统的设计

——

作者：李邵梅陈鸿昶等时间：2007-10-31 来源：现代电子技术

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

实时语音识别系统中，由于语音的数据量大，运算复杂，对处理器性能提出了很高的要求，适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计，但是在实时处理系统中，还需结合DSP器件的结构及工作方式，针对语音处理的特点，对软件进行反复优化，以缩短识别时间，满足实时的需求。因此如何对DSP进行优化编程，解决算法的复杂性和硬件存储容量及速度之间的矛盾，成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统，在固定文本的说话人辨识的应用中效果显著。
　　1 语音识别的原理

　　语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息，从中提取对语音识别有用的信息的过程，就是特征提取，特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一模型获得最佳匹配。

　　1.1 MFCC

　　语音识别中对特征参数的要求是：

　　(1) 能够有效地代表语音特征；

　　(2) 各阶参数之间有良好的独立性；

　　(3) 特征参数要计算方便，保证识别的实时实现。

　　系统使用目前最为常用的MFCC(Mel FrequencyCepstral Coefficient，美尔频率倒谱系数)参数。

　　求取MFCC的主要步骤是：

　　(1) 给每一帧语音加窗做FFT，取出幅度；

　　(2) 将幅度和滤波器组中每一个三角滤波器进行Binning运算；

　　(3) 求log，换算成对数率；

　　(4) 从对数率的滤波器组幅度，使用DCT变换求出MFCC系数。

　　本文中采用12阶的MFCC，同时加过零率和delta能量共14维的语音参数。

　　1.2 DTW

　　语音识别中的模式匹配和模型训练技术主要有DTW(Dynamic Time Warping，动态时间弯折)、HMM(HideMarkov
Model，隐马尔科夫模型)和ANN(Artificial Neu-ral Network，人工神经元网络)。

　　DTW是一种简单有效的方法。该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度，即失真距离。

　　设测试语音和参考语音用T和R表示，他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维，因此T，R分别为N linux操作系统文章专题:linux操作系统详解（linux不再难懂）

新闻中心

基于DSP的高速实时语音识别系统的设计

评论

相关推荐

技术专区