新闻中心

EEPW首页 > 智能计算 > 编辑观点 > 除了智能音箱,语音应用还有哪些潜力?

除了智能音箱,语音应用还有哪些潜力?

作者:时间:2019-05-30来源:收藏

      除了智能应用还有哪些潜力?技术上有哪些挑战?
      不久前,在意法半导体2019年STM32峰会上,出门问问信息科技有限公司的研发副总裁李勤先生登台,成为了AIoT沙龙的嘉宾。会后,电子产品世界等媒体也“问问”该公司,请他介绍了交互的技术与应用动向。

本文引用地址:http://www.eepw.com.cn/article/201905/401106.htm

图片1.png

图:出门问问研发副总裁李勤

      出门问问是一家专注于AI交互的公司,2014年成立。公司的优势在于产品、算法和芯片的集成整合方面。因此有完整的端到端的技术栈,涵盖从设备端的前端信号处理、语音识别,到云端的语音识别和服务的对接、语义的理解、对话管理等,所有和语音交互相关的技术,公司都是自主开发的。
      语音识别,在哪类处理器上做合适?
      关于语音识别,到底在MCU上做,还是MPU等处理器上做,这主要取决于应用场景。
      例如在耳机和手表上的交互,需要在本地处理的并不太多,主要是用唤醒词。出门问问的唤醒词叫“Hi,小问”。例如,“Hi,小问,帮我查一下明天去上海的火车票。”这个场景实际上真正在设备中能处理的只有检测到“Hi,小问”这个唤醒词的过程。检测到这个唤醒词之后,语音传到云端,因此真正的语音识别是在云端处理的。大部分消费者类产品基本上都是采用这样的方式。实际上,语音识别、语音交互的过程处理都是在云端进行的,在设备端比较少。
      另外一个例子很不一样,在车载领域。车载领域要求有完整的语音交互处理的能力。这意味着在本地端也必须有语音识别、语义理解、对话管理等处理能力,这些都是完整的。
      因此,由于需求不一样,对算力的要求、对内存资源的需求也是很不一样的。像MCU,一般是轻量级的计算,想在MCU上运行一个语音识别的程序,事实上是不太可能的。但可以在MCU上做一些唤醒词、命令词,例如在耳机上,说“上一首”,“下一首”,“增大音量”,“减小音量”等命令词,一二十个命令词是可以做的。但是要想有一套完整的语音识别,例如刚才的例子:“帮我找一下明天到上海的火车票”,这么长的一个句子完整理解,在MCU端上是做不了的。
      所以不同的芯片有不同的处理能力,有不同的功耗,有不同的对外围元器件的需求。具体选哪类,就要看应用场景。
      智能的挑战
      智能用MCU有一些困难,因为音箱要提供内容,还要提供更多的服务。
      例如要查找歌曲。歌曲一定是一个云端的服务,不可能在本地放很多音乐。更多的处理,例如查询歌曲,查当天的股票,明天的天气等等,这样的查询都是在云端处理的。
      另外对语音识别、语义理解会有更高的要求,大部分的处理是在云端做的。
      因此,对音箱产品来说,在本地做的主要是两部分:一部分是前端的音频信号处理。这部分特别是在远场拾音方面有很多挑战,诸如回声、噪音、混响等,因为这是必须在设备端上就要做的。还有一些像唤醒词、命令词也可以在本地设备端上做。
      另辟蹊径——面向商业客户
      出门问问的智能音箱产品主要面向2B(面向商业)客户。因为尽管智能音箱市场2018年发展得很快,出货量很大,但基本上就是百度、阿里、小米这几家互联网头部公司的产品。坦率地讲,跟这类互联网补贴的玩法(商业模式)相比,在价格上面,出门问问没有竞争力。因为出门问问不可能做价格上的补贴,在供应链上也没有那么大的量。
      所以从2018年开始,出门问问逐步向2B(面向商业的客户)方向转型。因为首先,出门问问的优势是在于有完整的端到端的整个语音交互的技术栈,而那些互联网公司为了快,他们的技术多半是由第三方的技术供应商来提供的。而2B需要很强的定制化。因此,如果你对整个端到端的技术链条不是很了解,不是自己开发,想做定制就会困难。
      第二个原因,因为在2C(面向消费者)市场上,用户对智能音箱类、语音类产品的认识逐渐深入,语音带来的好处能带动2B市场。
      2B的应用场景诸如酒店业,酒店里的音箱不仅使用户能查找音乐,还可以和酒店的服务有机地结合在一起,这就需要定制。而这种定制恰恰是出门问问的强项。

      和友商相比的优势
      出门问问的优势主要在于软硬结合。例如国内某著名的语音识别软件公司,尽管其在语音识别、语义理解、语音合成方面实力很强。但是并没有像出门问问那样有很多产品设计、生产方面的经验。
      出门问问有两个案例,一个是2018年给台湾远传电信(注:台湾前三大电信运营商)做的一种本地化定制方案。因为电信运营商需要有自己的音箱产品,他们需要的不只是硬件,同时还需要整套的语音后台,即整个语音的私有化部署服务器。同时,又要根据台湾地区的市场和用户习惯进行定制化。因为不同地区,其服务商和内容都是不一样的。在中国大陆用的,在台湾地区可能就不适用。
      所以出门问问拿下这单,就在于它所有的需求,不管是设备端的定制,还是在云端的定制,还是和服务、内容的集成上面,出门问问可提供整套的方案。而在此之前,远传电信其实找了很多供应商,但能满足他们需求的只有出门问问一家。
      另外一个案例,是出门问问最近和泰康健投的合作。该公司是一家做养老服务的公司。在泰康健投的养老院里,老人们住的地方要摆一个带屏音箱,一方面给老人提供内容服务,另一方面作为管理的工具。老人跟老年公寓之间会有一些沟通,例如发通知、订餐、健康医生咨询等服务。因此泰康健投也需要定制化的产品,不仅是硬件、软件,甚至包括系统。
      因此,出门问问有端到端完整的技术,以及对产品、服务的深度集成能力,这种软硬结合的能力是出门问问的最大优势。
      在STM32峰会上的展示
      在此次STM32峰会上,出门问问演示了“语音控制智能家居”。即基于STM32开发板,在嘈杂的环境中演示相对近场的麦克阵列处理效果,对不同语音控制指令做出反馈。具体地,把唤醒算法和命令词控制算法,以及前端信号处理的算法,做到了STM32开发板子上面,想演示一下出门问问的算法和STM32芯片结合的能力,主要基于STM32做语音处理,基于STM32Cube.AI的工具生成的功能。

QQ浏览器截图20190530230104.png

       那么,这个算法可以跟STM32芯片搭配着销售吗?实际上,出门问问与ST的合作不只局限于出门问问自己的产品,更是希望与ST一起来合作,开拓更多其他的领域。

       ST的曹锦东评价道,每家公司都需要去拓展自己的产品系列,或者叠加产品的价值。出门问问作为一家领先的语音识别、人工智能、可穿戴等结合的产品厂商,跟ST未来的“STM32+人工智能”的方向是一致的,所以两家公司有互补的关系。此次的演示也是做了一个尝试,一个可行性的评估,展示给大家看,只是第一步。至于这个方案能不能卖给客户,现在还不知道。但是ST对这个方案有信心。

      和ST的合作

      实际上,现在的出门问问跟ST的合作有两方面。

      1.早期的合作主要是采购ST芯片,用在可穿戴设备上,主要是在手表上用到STM32的芯片产品。

      2.另外,由于出门问问在嵌入式的AI算法开发方面也有很多经验的,例如智能手表,从第一代开始就支持语音唤醒。语音唤醒模型用到了深度学习的算法,要把它移植到手表上。所以在这方面,出门问问拥有很多经验,包括数据采集、模型训练、深度学习的算法设计、网络模型的架构等方面。从ST的角度来看,ST于2018年推出了STM32Cube.AI工具,目的也是给第三方提供一个简单、应用方便的开发工具,可以让第三方的产品和设备生产厂家很容易地开发基于AI的应用。出门问问是最早一批接触到这个工具的厂商,但不仅是使用这个工具,更重要的是在使用过程中,用出门问问所积累的经验,给开发工具的团队提出了很多建议,诸如如何改进算法、改进底层计算的架构等。可见,出门问问不仅仅是在芯片的产品层面上与ST有合作,以后更深的合作在于整个软硬件结合方面,期望双方能够共同推出一个生态,即软件、硬件、传感器结合,推出一个整体产品方案给第三方。这样,第三方可能更加容易开发他们的产品,把AI赋能给这些做产品的厂商。



关键词: 语音 音箱

评论


相关推荐

技术专区

关闭