新闻中心

EEPW首页 > 设计应用 > 人工智能电视远场语音设计

人工智能电视远场语音设计

作者:郭斌 林敏强 刘泽民时间:2018-09-27来源:电子产品世界 收藏
编者按:本文介绍一种服务于人工智能电视,实现远场语音应用的麦克风阵列设计方案,阐述系统框架和硬件设计,同时介绍软件设计的部分要点。通过麦克风阵列,协助语音增强算法的实现,达到远距离拾音、回声消除、声源定位,满足当前智能语音应用的需求。

作者 / 郭斌 林敏强 刘泽民 康佳集团(广东 深圳 518053)

本文引用地址:http://www.eepw.com.cn/article/201809/392393.htm

  郭斌(1980— ),男,康佳集团多媒体研发中心新技术所所长,主研电视前沿技术,无线通信方向。

  林敏强(1990— ),男,康佳集团多媒体研发中心硬件工程师,主研智能前沿技术,人机交互方向。

  刘泽民(1994— ),男,康佳集团多媒体研发中心硬件工程师,主研无线智能产品方向。

摘要:本文介绍一种服务于电视,实现远场语音应用的设计方案,阐述系统框架和硬件设计,同时介绍软件设计的部分要点。通过,协助算法的实现,达到、回声消除、声源定位,满足当前智能语音应用的需求。

0 引言

  是20世纪新兴的一门学科,从发展之初就受到业界的广泛关注。从广义上定义是指具备语音感知、图像感知以及其他信息感知,具备逻辑运算能力,以仿人类的思维方式工作的智能系统。目前已经取得了不俗的成果,人工智能产品也覆盖到了人们生活的方方面面。人工智能科学具有广阔的发展前景和巨大的发展潜力,正确引导和规范人工智能科学的技术性发展和应用,必将会给人类带来巨大的财富[1]

  随着大数据、云计算、深度学习技术的不断普及,语音技术的不断优化,人工智能越来越具备从"感知"到"认知"的能力,产品形态的智能化程度越来越高[2]。人工智能技术在电视上的应用,将内容和交互结合,听歌、看剧、查询...用户都只需要开口就行,结合大数据后台,便会根据用户的喜好推送个性化歌曲推荐;接入智能家居系统,即可语音操控各种设备,十分便捷。

  本文围绕人工智能电视的远场语音设计展开,介绍功能实现的框架和原理。

1 硬件设计

  基础功能硬件实现架构如图1,采用4麦克风条形线性阵列,模拟麦克风经ADC传输音频信号给MCU处理。MCU采用ST的STM32F401CDU6作为主控方案,STM32F401CDU6是一颗32位 ARM核芯片,内置512 KB Flash/96 KB RAM,低延迟,工作频率高达84 MHz,支持宽电压1.7 V~3.6 V。模块方案通过ADC将A-MIC模拟信号转成I2S传输给MCU,MCU通过USB2.0和TV SOC传输音频数据。通过模块搭配算法有效实现声源定位、波束成形、去混响、降噪、增益调节、回声消除等功能(下文结合软件模块展开阐述)。

  1.1 麦克风选料

  麦克风选用灵敏度-25 dB,信噪比74 dB的A-MIC,同时采用接线外拉的形式,有效避免生产过程中因高温焊接导致的麦克风灵敏度下降或损坏等问题,保证阵列麦克风灵敏度的一致性,对整体算法的精确度有比较好的控制和要求。不过相应的会对整机生产装配造成难度以及增加人工成本,设计之初需要做好防呆设计,提高安装可靠性和效率。

  1.2 供电设计

  模块采用独立的供电,电视待机时,可支持通过模块待机唤醒操作。模块需要区分电视待机和开机状态,开机状态下,唤醒词拉起语音应用。待机状态下,唤醒词本地处理通过I/O口发起开机信号。因此待机时,供电关闭500 ms后重启,模块重新读取USB数据信号是否为空,以此来判断主机状态。

  1.3 参考信号设计

  参考信号指的是主机端提供给模块的音频参考,作为回声消除算法的依据。参考音频由功放输出信号,经过分压、滤波后传输给模块。根据芯片取值范围要求,确保输入到模块的参考信号幅值≤1 Vrms,即图2中从AMP+/-经分压后到SPK+/-的信号≤1 Vrms。

  这里提到另外一种分压方式,如图3,由于R36、R38阻值存在误差以及喇叭的寄生电容等影响,改变了差分信号走线的阻抗,使得其对于共模干扰抑制能力减弱,且容易在参考信号中引入杂音、破音。实际测试对比两者播放1 kHz测试音频时,该分压方式产生明显的失真,如图4对比。

2 软件设计

  软件分本地处理和云端处理两部分。如图6,浅灰色部分为本地处理,深灰色部分为云端处理。本地算法包括回声消除AEC、声源定位DOA、波束形成BF、去混响DER、降噪NS、自动增益调节AGC、频域均衡EQ,最终编码传输。云端主要负责对接收到的音频进行文本识别、自然语言处理NLP、最终经过业务逻辑和技能处理,将结果经TTS服务器反馈给用户。其中,在识别处理的同时,音频信号经VPR服务器进行读取,对音频分析特征值,也就是声纹识别。声纹识别的结果也提供给业务单元处理。

  2.1 回声消除

  自适应回声抵消的基本思想是估计回声路径的特征参数,产生一个模拟的回音路径,得出模拟回声信号,从接收信号中减去该信号,实现回声抵消。图5给出了单向传输的声学消回声器AEC的原理图。图5中,x(n)代表麦克风拾音的信号,包含了本地声音和目标人声;y(n)是经过回声通道而产生的不期望的回声;r(n)是经算法抵消后的目标人声;A口的信号x(n)叠加有不期望的回声[3]

  2.2 声源定位及波束形成

  麦克风拾音在实际应用环境中不仅仅有直接到达的目标语音,还有目标语音经过墙面反射、衍射等其他路径到达的部分及混响,以及环境噪音及本地噪音的干扰。声源定位即依靠分布式麦克风阵列,对接收到的信号进行函数运算,根据计算的信号时延差获取目标音源的角度方向。波束形成的原理利用麦克风阵列的特性,将噪声进行抑制或进行非常大的衰减以提高接受目标信号的质量[4]

  2.3

  的过程主要由远场或近场方式进行拾音,由服务器(ASR)和语义理解服务器(NLP)完成录音文件识别和结果转换。识别结果经语音合成服务器(TTS)合成人声将结果反馈给用户。

  语音识别服务器(ASR)主要将电视端录入的音频文件进行识别,将识别结果的文本直接发送给语义理解服务器进行解析,可以分为远场/近场以及不同方言进行处理。

  语义理解服务器(NLP),目前使用主服务器加辅助服务器的模式进行语义理解处理,在语音识别服务将文字传给语义理解服务器后,使用第三方提供的主服务器进行优先解析,识别结果进行权重值计算,权重值高的识别结果直接返回客户端进行处理;权重值低的识别结果返回给康佳语义理解服务器,由康佳语义理解服务器进行二次处理和转发,如果主服务器不能识别的语句则由康佳语义理解服务器进行识别,然后根据识别结果的领域分发给其他对应在该领域处理比较好的其它服务器进行语义理解处理,识别之后返回康佳服务器再统一返回客户端进行处理。

  语音合成服务器,主要将识别结果和理解处理结果的文本进行语音合成和人声播报,可以定义不同的人声播报达到不同的效果,处理结果为生成一个音频文件返回给客户端。

3 小结

  随着人工智能技术的发展,语音成为了不可或缺的主要交互手段。麦克风阵列在智能音箱、智能电视甚至智能空调、冰箱、抽油烟机等家电上都逐渐开始应用,市场一度出现了人工智能热。麦克风阵列的设计及应用是AI智能服务落地的基础,本文提出人工智能电视远场语音麦克风阵列的设计,从硬件系统、软件模块、性能原理、以及器件选型等多方面进行了原理分析研究和设计方案阐述,配合云端后台,实现电视人工智能对话的场景。

  参考文献:

  [1]王太忠,吕叶. 人工智能浅析[J]. 科教文汇(上旬刊). 2012(09):70-71

  [2]陈长伟. 人工智能+内容开启广电智媒体时代[J]. 有线电视技术. 2017(11):26-29

  [3]王庆辉,李永哲. VoIP声学回声消除算法研究[J] , 现代电子技术, 2009 (07).

  [4]杜军,桑胜举. 基于麦克风阵列的技术及应用[J]. 计算机应用与软件. 2009(10)

  本文来源于《电子产品世界》2018年第10期第50页,欢迎您写论文时引用,并注明出处。



评论


相关推荐

技术专区

关闭