新闻中心

EEPW首页 > 业界动态 > 深度丨解析硬件之智能语音领域

深度丨解析硬件之智能语音领域

作者:时间:2017-03-17来源:电子产业说收藏
编者按:本文深入分析了目前智能语音领域的格局与未来发展的趋势。同时从产品本身,产品硬件、软件、算法、系统、云管端等方面,分析在总体的竞争格局下,智能语音领域可能存在的机会。

  亚马逊Echo

本文引用地址:http://www.eepw.com.cn/article/201703/345354.htm

  Echo的售价为179.99美元,采用6+1的麦克风阵列,主芯片采用德州仪器的数字多媒体芯片,同时采用高通Atheros的WiFi和蓝牙。此数字多媒体芯片与OMAP3架构兼容,最高可以到1GHZ,ARM Coretex A8架构,具有较高的音视频编解码能力,内嵌TI的DSP Core,下图是该芯片的架构图。在软件上,该产品使用Alexa系统,能支持各种应用,上面已有说明。

  Google Home

  Google Home售价为129美元。采用双麦克风阵列,两颗InvenSense INMP621 MEMS收音芯片。由于Google与Marvell在GoogleTV以及电视棒Chromecast上的良好合作,所以此次也采用Marvell 88DE3006 Armada双核ARM Cortex-A7多媒体专用处理器,该芯片也是电视棒的主芯片。以及Marvell Avastar 88W8897 WLAN/BT/NFC SoC通讯芯片。未找到该颗主芯片的硬件架构图,下图是ARMADA 1500同系列高配芯片架构图,带Audio DSP。在软件上,该产品使用Google Assistant系统。

  亚马逊Echo和Google Home在硬件上最大的区别,还是在于亚马逊使用环形6+1麦克风阵列,而Google是采用双麦克风阵列。麦克风阵列是利用一定数目,一定空间构型的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。麦克风阵列能做很多事情,对于环境噪声,它可以采用自适应波束形成做语音增强,从含噪语音信号中提取纯净语音;对于说话人说话位置的不确性,它可以通过声源定位技术来计算目标说话人的角度,来跟踪说话人以及后续的语音定向拾取;对于室内声音反射,导致语音音素交叠,识别率较低的问题,它可以通过去混响技术,减小混响,提高识别率。

  按照业内人的观点,在家庭的环境内,如果优化的好,双麦克风阵列可以做到与多麦克风差不多的语音增强和降噪效果。双麦克风阵列只能定位180°内的范围,而多麦克风则可以做到360°的定位。但是这要依硬件设备的使用场景而定,比如在机器人领域,对声源定位的要求很高,如Rokid机器人使用8麦克风阵列。但是在有些应用场景,如靠墙的冰箱等,只需要180°的定位。在汽车领域,则最好是选用其他结构形式的麦克风阵列,比如分布式阵列。目前国内主流的企业在双麦克风方案上都有布局,仅云知声目前搭载双麦克的芯片模组每月的出货量就超过几万片。

  最近的发展趋势在远场识音方面,即5米以上的语音交互。为了实现更好的效果,多麦克风方案是必须的,麦克风个数越多,对说话人的定位精度越高,但这个精度体现在距离上,如果说话人的距离不是很远,则差异未必能够体现。

  因此要综合考虑实际的应用场景,选择不同的麦克风个数和阵型。在这方面出了亚马逊的Echo是采用6+1阵型,国内科大讯飞是4麦和6+0麦方案,思必驰的6+1麦方案,以及声智科技的4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案。

  值得一提的是麦克风阵列最好和前端算法和云端识别相结合,麦克风阵列只是起到了拾取声音,但语音的识别率还要考虑算法的模型的计算,只有终端硬件和前端算法、云端识别相结合,才能使识别率达到最佳,这也是亚马逊、谷歌甚至微软这类企业不得不做硬件的根本原因。比如声智科技,就非常重视麦克风阵列与算法的软硬件结合的远场识音技术,这也是大家很看好的原因。目前的技术还是以单人识别的模式,未来在某些应用场景下需要多人识别的技术,这也是创业的机会所在。

  从硬件本身来说,麦克风的小型化、低功耗、低成本也是重要的发展方向。在小型化方面,MEMS的麦克风技术迎合了这种发展趋势,目前楼氏占据了全球MEMS麦克风市场的最大市场份额。

  据楼氏透露,其2015年全年的出货量接近16亿颗。但IHS分析指出,由于Goertek、意法半导体与瑞声科技都在快速增长。除了麦克风本身的小型化,麦克风阵列的小型化也是重要的方向,麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。

  很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。在低功耗方面,据楼氏硬件负责人介绍,他们将声学活动检测(Acoustic Activity Detector,AAD)单元放到了麦克风里面,实现一个自适应的实时监听模式,这种方式能够使整个系统节能70%。而另一家声学传感器开发商Vesper,近日推出了首款商用静态传感MEMS器件,使声学事件监测器件实现几乎零功耗。当处于监听模式时,Vesper最新的压电式MEMS麦克风VM1010所需功耗仅为3?A。当然这是与芯片的DSP模块、语音接口和关键词检测算法等相结合,才实现了最低功耗的远场监听效果。

  就麦克风阵列的低成本而言,除了芯片本身降低成本之外,还需要从麦克风阵列整个结构和系统去考虑,包括器件、芯片、算法和云端。在这方面还有很多的改进空间,也是机会所在。

  就处理芯片来说,亚马逊和Google都是采用常规的多媒体处理芯片,里面有audio codec的DSP IP。这里需要提到的是唤醒技术,即主芯片在大部分时间里保持休眠状态,当听到特定词,如“OkWatch”后触发CPU及后台系统的开启。在这方面做得比较好的是Sensory,这一块也是比较好的创业方向。新的趋势可能是在处理芯片里面嵌入深度神经网络,如去年楼氏并购了语音解决方案供应商Audience后,为楼氏带来几项重要的技术,其中就包括通过深度神经网络(DNN)的基于机器学习的语音识别,我们希望早日看到这类芯片的出货。

  当然对于芯片而言还有一个方面是做更高的集成度,包括集成WiFi/BT、DSP、audio Codec的SoC单芯片,我们也看到基于WiFi/BT的Combo芯片,带Corex M3/M4,若再加上audio Codec,就是单芯片的方案。当然这里的前提是有足够的量做为支撑。

  就算法而言,语音识别在2010年卷积神经网络(CNN)应用之后,准确率大幅提升,已经在C端、B端得到了广泛应用。当前语音识别技术的主流算法,主要有基于参数模型的隐马尔可夫模型(HMM)模型和混合高斯模型(HMM-GMM)的方法、基于HMM和深度网络(HMM-DNN)和长短时记忆网络LSTM等语音建模方法。语音识别整个过程包含语音信号增强、静音检测、声学特征提取、声学和语音模型计算、解码等多个环节。由于语音信号的多样性和复杂性,系统只能在一定限制条件下才能获得满意效果。在真实使用场景中,考虑到远场、方言、噪音、断句等问题,准确率会大打折扣。

  目前业内普遍宣称的97%识别准确率,更多的是人工测评结果,只在安静室内的进场识别中才能实现。按照微软首席研究员俞栋的看法,需要在几个方面做改进,包括进一步提升在远场识别尤其是有人声干扰情况下的识别率;提供更好的识别算法,一个方面是能不能更简单,另一方面寻找一些特殊的网络结构放到模型里面,以提升性能;还有一个方向是快速自适应的方法,快速的不需要人工干预的自适应方法(unsupervised adaptation)。但我始终觉得,单靠算法不足以形成足够持续的竞争力,特别是越来越多的算法会走向开源,需要与数据、硬件以及好的商业模式相结合。

  刚才提到的都是基于某个点的优化,无论是麦克风阵列、芯片化还是算法,都是需要很高的技术作为支撑。但作为创业公司来说,都是根据自己的资源,结合当前产业链的现状以及趋势,找到自己能立足的地方。针对当前很多巨头都在关注领域,他们必定花费大量的资源投入其中,作为创业企业,如果能借助这些资源,找到自己在细分市场的发展空间,也是不错的选择。

  如Linkplay在推广Alexa业务中扮演第三方中间商的角色,为硬件厂商提供Alexa接入语音服务与授权渠道,帮助厂商快速实现Alexa相关功能;筛选品牌,协助亚马逊做好认证工作,保证用户体验Alexa服务的一致性和标准化,这是基于中国有大量的硬件厂商,而最终客户往往都是海外的考虑,公司找到了这样的机会。虽然这涉及到过渡依赖的问题,但是有其存在的意义和发展的空间的,企业也可以在服务方面打造自己持续的竞争力。

  还有一种创业模式是平台型的模式,这里说的模式不是只是基于语音的云管端模式,而是把语音作为其中的一部分,甚至语音不是最重要的部分,同时服务于不同的客户。

  一个例子如迪韵科技,可以在物联网音视频领域提供一站式解决方案,其Mediawin平台为传统行业以及硬件企业提供“耳朵”和“眼镜”方案。Mediawin方案平台整合了多方面的资源,比如与多家声学器件厂商合作定制了麦克风、喇叭等声学器件;与专业芯片厂商合作开发了深度优化的音频处理算法;与语音识别方案商合作提升语音识别的准确率;接入第三方的平台提供更多的音视频应用功能等。

  根据客户的不同需求,比如白牌企业可能需要完整的音视频解决方案、大企业可能仅需要底层处理算法支持、方案商需要整合专业的处理算法+云平台资源等,提供定制化的软硬件方案服务。在设备端,Mediawin平台针对各种嵌入式产品,拥有完善的硬件解决方案,比如专业的音腔设计、音视频器件选型、声学场景优化、音视频模组等,能帮助企业简化6大音视频开发难题。相对于亚马逊Alexa以及Linkplay的组合,迪韵提供了更完整和多样化的方案路径。当然这种模式能做多大尚需考证。


上一页 1 2 下一页

关键词: 智能语音

评论


相关推荐

技术专区

关闭