生成式人工智能音频快速发展：高信噪比MEMS麦克风功不可没

作者：Sofia Cucalon，Julian Kornprobst 时间：2024-06-21 来源：英飞凌

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

最新一代人工智能或将开启新一轮科技革命，全面提升各种人机交互体验。

本文引用地址：https://www.eepw.com.cn/article/202406/460178.htm

人工智能日益融入人们的日常生活，在方方面面带来深刻变化。基于人工智能的文本和图像生成工具可以创建出令人难以置信的内容。不仅如此，人工智能的触角已从视觉和文字媒介，伸向语音转文字（STT）和自然语言处理（NLP）等音频应用，展现出巨大潜力。然而，音频应用质量大幅提高是否仅仅归功于最新一代基于大语言模型的生成式人工智能？还是说硬件依然功不可没？就拿高信噪比（SNR）微机电系统（MEMS）麦克风来说，它为实现这种必将改变人们日常生活的新质人机交互做出了什么贡献？本文将探讨这些问题并深入分析高信噪比MEMS麦克风在文字转语音（TTS）和自然语言处理（NLP）等前沿音频应用的发展中所起的关键作用。

人们每天佩戴耳机的时间越来越长。随着越来越多的人选择在咖啡馆等公共场所办公，为了静享安宁或是参加会议，人们纷纷使用耳机来隔绝外界喧嚣。闲暇时，人们也愿意戴着耳机打游戏、听音乐或有声读物或者与朋友交谈。由于佩戴时间越来越长，除舒适度之外，音频质量也成为重要的选购标准。越来越多的人在选购耳机时对“高级音频功能”感兴趣，如空间音频、清晰语音通话和低延迟等。

语音识别和语音生成是消费电子产品和汽车的重要音频功能。近几年来，包括Siri和Alexa在内的语音助手一直在简化操作并推出新的应用，如通过语音命令控制智能家居设备。如今，从智能手机（图1）和耳机到智能电视、智能音箱、智能家居设备、笔记本电脑和平板电脑，各式各样的设备都配备了集成语音助手。集成在设备中的语音助手（如智能手机、耳机、智能电视和智能音箱）依赖于这些麦克风捕捉到的高质量音频输入。高信噪比（信号与噪声比）麦克风在实现卓越音频质量方面起着关键作用；对于远场应用，如智能音箱，高信噪比麦克风可以更好地捕捉音频；真无线耳机（TWS）中的主动降噪（ANC）和透传模式等功能也受益于高信噪比麦克风，提升了用户体验。汽车也广泛使用语音助手来控制多种不同功能，以便驾驶员双手不离开方向盘即可完成操作。

SAR预测，到2028年，带集成语音助手的设备的市场总销量将增至每年30亿台，复合年增长率达5%。¹

人工智能在音频领域的应用前景

另外目前的系统还不够完美。口音、语病或简单的背景噪声等仍然会导致语音识别失败。语音输出听起来也非常生硬，与真人发音有很大差别。

最新一代人工智能或将开启新一轮科技革命，全面提升各种人机交互体验。生成式人工智能音频的优势不仅在于增强语音助手的功能，还在于它能够更好地理解人类的意图。例如，人工智能生成语音与真人发音几乎难以分辨，从而可以为视障群体提供更好的帮助。各种数字平台都可以利用人工智能音频来提升用户体验，娱乐行业或客户支持领域也可以探索人工智能音频带来的新的可能性。

生成式人工智能音频的一个重要应用是语音转文字，即将说的话转换成文字。使用人工智能可以提高速度和准确率。语音转文字（STT）结合文字转语音（TTS），可以在诸如笔记本电脑或智能手机等消费电子产品中实现多种应用，包括集成语音助手以及自动转录会议。在会议中，基于人工智能的应用可以总结出，以把握讨论的精神实质。在会议进行过程中，您可以查看不同人提出的观点，以确保全面考虑每个人的意见。

自然语言处理（NLP）和生成富有表现力的语音

自然语言处理（NLP）是生成式人工智能语音的基础技术。它致力于理解口头语言的含义，而不考虑口音、口语化表达、发音含糊不清以及口头语言与书面语言之间的其他差异。自然语言处理还可以根据语速、语调和语气，识别出观点和情绪。人可以发出各种各样的声音，因此，自然语言处理的声音采集必须尽可能准确地捕捉到纯净的语音信号，同时将背景噪声、杂音和其他外部影响降至最低。换句话说，麦克风和信号处理有助于显著提高自然语言处理质量。

要实现出色的语音识别，必须用尽可能多的不同真人声音对人工智能进行训练。只有这样，它才能处理语音的微妙之处并理解口语文字。

适用于人工智能音频的MEMS麦克风

同自然语言处理的情况一样，人工智能音频必须借助的硬件才能高质量地完成任务。首先是将人类语音产生的声波转换成电信号，转换质量直接关系到对所捕捉信号的理解。任何转换损失或劣化都会降低语音转文字的准确率。

麦克风是音频链中的第一个环节，在人工智能音频设备必须选择合适的麦克风。MEMS麦克风可谓当仁不让：它们不仅具备高性能和低功耗，而且外形小巧，可轻松集成到各式各样的设备中。

MEMS麦克风主要由三个部分组成（图2）。首先是用作传感元件的微机电系统：膜片和背极板共同构成一个电容器，声波使膜片振动，振动导致电容变化从而产生电信号。第二个组成部分是专用集成电路（ASIC），其中包含向膜片施加电压的电荷泵、放大器、稳定输入电压的稳压器（LDO）和校准逻辑电路。第三个组成部分是封装，它将这些元件集于一体，提供保护和屏蔽并形成后腔室。

图片.png

MEMS麦克风框图

要在有背景噪声、口音或讲话人与麦克风之间的距离不理想等困难条件下，识别出语音的细微差别，麦克风的信噪比是关键特性。麦克风的所有元件（MEMS、ASIC、封装和入声孔）都会产生自噪声。信噪比描述了麦克风固有的自噪声相对于标准参考信号的强度。信噪比越高，能提供更稳定、更清晰的语音和数据传输，减少噪声干扰，提高设备性能和稳定性。

XENSIV™ MEMS麦克风带给人工智能音频的优势

如上所述，人工智能音频设备需要采用高信噪比麦克风来实现准确的语音识别。英飞凌已经成功地研发了许多高性能MEMS麦克风²，包括具有革命性意义的密封双膜（SDM）MEMS麦克风技术。它使用两个膜片和一个带电定子来形成一个密封的低压腔（图3）和一个差分输出信号，这种架构可实现超高信噪比（高达75 dB）和极低失真，并为麦克风提供防水防尘高防护（IP57）。

图片.png

SDM技术使用两个膜片和一个带电定子来形成一个密封的低压腔和一个差分输出信号从而实现超高信噪比和极低失真

英飞凌XENSIV™ IM73A135正是应用了这个技术，信噪比达到73 dB，处于行业内领先地位特别适合人工智能音频等要求严格的应用。其4×3 mm²封装允许将声音捕捉单元小型化，以便轻松将人工智能语音技术集成到各种设备中，包括笔记本电脑、会议电话以及智能音箱和智能手机等。

XENSIV™ MEMS麦克风的另一个优点是低能耗。它们提供多种不同工作模式，通过节能来帮除了性能领先助提高设备的功率效率。许多带生成式人工智能语音功能的设备都是电池供电的便携式设备，低能耗对于延长电池续航尤为重要。

得益于其尺寸小巧、经济划算和低功耗，在一台设备中配置多个麦克风。这样可以检测并降低背景噪声，提高语音识别准确率。还可以采用波束成形算法，从背景噪声中分离出并拾取特定讲话人的语音。

如今人们很重视改善音频质量，市场数据也反映出MEMS麦克风的优势。高信噪比MEMS麦克风市场的增长速度明显超过低信噪比麦克风市场。Omdia预计，信噪比高于64 dB的MEMS麦克风在消费领域的复合年增长率将达到8.7%，到2027年销售量将接近30亿个³。

英飞凌很早就预见到这一趋势，我们一直在研发适用于人工智能音频应用等的高性能MEMS麦克风。

除了性能领先的73-dB信噪比之外，具备更高信噪比、更低功耗的MEMS麦克风也即将相继面市。

图片.png

XENSIV™ MEMS麦克风的主要价值指标

结语

在生成式人工智能音频领域，高信噪比MEMS麦克风起到了至关重要的作用。随着人工智能推动语音转文字（STT）等音频应用不断发展，MEMS麦克风也通过捕捉细致入微的语音数据，为提高语音识别准确率发挥了积极作用，助力在消费电子产品和面向视障群体的无障碍功能等领域实现更加自然而实用的人工智能音频。充分利用优质MEMS麦克风的这些优点，人工智能音频将在未来几年开辟更多应用领域，包括语音克隆、语音情绪识别等等。

英飞凌科技自主研发和生产MEMS麦克风的所有组件。英飞凌可以针对每种应用，确定MEMS、ASIC和封装的最佳组合以实现最优性能。这为改善用户体验和拓宽人工智能音频应用领域铺平了道路。

参考文献

1 SAR Insight & Consulting发布的《语音助手平台预测》，2023年。

2 英飞凌科技。

3 Omdia（2023年发布）《MEMS麦克风调研报告》。