麦克风阵列技术语音交互应该选用怎样的方案？

作者：时间：2018-07-25来源：网络收藏

声源测向：这里没有用声源定位，测向和定位是不太一样的，而消费级麦克风阵列做到测向就可以了，没必要在这方面投入太多成本。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法，也可以基于谱估计，阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现，VAD技术其实就可以包含到这个范畴，也是未来功耗降低的关键研究内容。

本文引用地址：http://www.eepw.com.cn/article/201807/383792.htm

波束形成：波束形成是通用的信号处理方法，这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰，这里也包括人声，比如几个人围绕Echo谈话的时候，Echo只会识别其中一个人的声音。

阵列增益：这个比较容易理解，主要是解决拾音距离的问题，若信号较小，语音识别同样不能保证，通过阵列处理可以适当加大语音信号的能量。

模型匹配：这个主要是和语音识别以及语义理解进行匹配，语音交互是一个完整的信号链，从麦克风阵列开始的语音流不可能割裂的存在，必然需要模型匹配在一起。实际上，效果较好的语音交互专用麦克风阵列，通常是两套算法，一套内嵌于硬件实时处理，另外一套服务于云端匹配语音处理。

麦克风阵列的技术趋势

语音信号其实是不好处理的，我们知道信号处理大多基于平稳信号的假设，但是语音信号的特征参数均是随时间而变化的，是典型的非平稳态过程。幸运的是语音信号在一个较短时间内的特性相对稳定(语音分帧)，因而可以将其看作是一个准稳态过程，也就是说语音信号具有短时平稳的特性，这才能用主流信号处理方法对其处理。从这点来看，麦克风阵列的基本原理和模型方面就存在较大的局限，也包括声学的非线性处理(现在基本忽略非线性效应)，因此基础研究的突破才是未来的根本。希望能有更多热爱人工智能的学生关注声学，报考我们中科院声学所。

另外一个趋势就是麦克风阵列的小型化，麦克风阵列受制于半波长理论的限制，现在的口径还是较大，声智科技现在可以做到2cm-8cm的间距，但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题，而是ID设计的考虑。实际上，借鉴雷达领域的合成孔径方法，麦克风阵列可以做的更小，而且这种方法已经在军工领域成熟验证，移植到消费领域只是时间问题。

还有一个趋势是麦克风阵列的低成本化，当前无论是2个麦克风还是4、6个麦克风阵列，成本都是比较高的，这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件，而是整个结构的重新设计，包括器件、芯片、算法和云端。这里要强调一下，并非2个麦克风的阵列成本就便宜，实际上2个和4个麦克风阵列的相差不大，2个麦克风阵列的成本也要在60元左右，但是这还不包含进行回声抵消的硬件成本，若综合比较，实际上成本相差不大。特别是今年由于新技术的应用，多麦克风阵列

新闻中心

麦克风阵列技术语音交互应该选用怎样的方案？

评论

相关推荐

技术专区