左手技术，右手需求，但声纹识别依旧当不了“独行侠”

作者：时间：2018-11-01 来源：镁客网

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编者按：声纹识别当“独行侠”的机会很少，在较为复杂的环境，现在的声纹识别很多都是与语音识别和人脸识别等结合，因此，从大趋势来讲，声纹识别当不了“独行侠”。

　　前段时间，OPPO意外上了热搜。

本文引用地址：https://www.eepw.com.cn/article/201811/393681.htm

　　因为智能AI语音助手“小欧”的语音唤醒、解锁功能，用户花了5000元买了一部OPPO的手机。这事没让用户感到兴奋，反而有点恐慌。

　　根据指示，在录入声音后，应该只有声音的主人能够语音唤醒、解锁，而现在，在用户已经提前录入声音的前提下，他的朋友竟然也通过语音成功唤醒小欧，并解锁手机。

　　这其中究竟是哪一步出了问题?

　　答案是，语音识别。

　　说得更准确一点，是手机系统的声纹识别不够准确。

　　声纹识别很“低调”，但掩盖不住市场利好

　　就像这个世界上没有任何两片树叶的纹理是一样的，即使是双胞胎，他们的舌、牙齿、喉头、肺、鼻腔在尺寸和形态等方面多多少少都会有些差异，即便是声音听起来相似，但声纹图谱总归是不同的。

　　具体说来，声纹识别是生物识别手段的其中一种，跟它属于同一家族的还有指纹识别、人脸识别、虹膜识别等等。在现实生活中，识别技术通常都被用来作为交互或是安全认证的一种手段，声纹识别亦不能免俗。

　　目前，声纹识别技术最大的市场在于安防和金融。其中，最为经典、刺激的当属刑侦。最佳例子来自2017年的热播剧《人民的名义》，针对陈海发生车祸一事，反贪局局长侯亮平与京州公安局局长赵东来在全场进行探讨分析，提到陈海在车祸前共接到两个举报电话，京州公安局将两个电话交由不同技术部门进行了两次鉴定，最终得出结论，两通电话举报人的声音并非蔡成功一人。

　　如何知道声音不是同一个人的?这其中所使用的技术就是声纹识别。更进一步讲，这是1对1的声纹识别技术，通过将电话中的声纹与数据库中蔡成功的声纹特征进行1对1比对。

　　而在金融领域，声纹识别技术也被用于用户身份确认等方面，譬如银行系统会要求用户登录时先行说出一段指定文字，从而进行声纹数据的比对，以确认用户是否为本人。可以说，在安防/金融等领域，声纹识别有着先天的落地场景和利好前景。

　　安防/金融等应用场景之外，声纹识别也逐步地在智能硬件、智能家居等产品或场景内实现落地。

　　以智能家居场景内的智能音箱为例。最初智能音箱并不具备声纹识别的功能，这也就意味着任何人都可以唤醒它并对其下指令。而当有多人同时发声时，智能音箱就会发生“指令混乱”的问题。如果任何人都可以通过智能音箱进行全场景控制，那么无疑为不法分子提供了作案便利。因此，出于安全性、指令接收准确性、个性化等因素，声纹识别技术也渐渐在智能家居、智能硬件等场景中实现渗透。

　　目前，在声纹识别技术的应用方面，除了接入安防、金融等行业，诸如长虹等硬件厂商也研发并推出了具备声纹识别功能的智能电视、智能手机等等。

　　从近几年的情形可以看出，相比于指纹识别、人脸识别等生物识别技术，声纹识别是“低调”的，但市场需求是的确存在的，且市场热度也有上升趋势。

　　相比其他家族成员，声纹识别的成长过程有着许多“拦路虎”

　　此前，智研咨询发布《2018-2024年中国声纹识别技术行业市场运营态势及发展前景预测报告》，内容中指出，2017年声纹识别技术的全球收入为1.32亿美元，而这一数值在几年将增至1.59，增速达到20.5%，预计到2021年，声纹识别技术的全球收入将达到2.64亿美元。仅从这一数值来看，声纹识别的市场预期还是不小的。

　　但另一方面，这一市场预期又着实有点不够看头。国际权威调研机构Gen Market Insights发布了《全球人脸识别设备市场研究报告2018》，报告称，2017年全球人脸识别设备市场价值为10.7亿美元，到2025年底将达到71.7亿美元，在2018年至2025年期间将以26.8%的速度增长。

　　一边是个位数，一边是十位数，这中间的差距之大十分明显。

　　此外，我们再看另外一组对比：

　　从易用性、准确率、成本、用户接受度等角度出发，对各项生物识别技术做对比。我们可以直观看到，综合评判上，相比于指纹识别、掌型识别、人脸识别、虹膜识别等生物识别技术，声纹识别在各方面都占据优势。

　　那么，我们就疑惑了：市场存在需求，易用性、准确率、成本、用户接受度等方面又比其他生物识别技术更有优势，缘何声纹识别技术的市场占有率远远落后于人脸识别等技术?

　　问题就出在数据的采集和覆盖范围上。

　　在本文开始，我们就提到纵然是双胞胎，他们的声纹特征也是有所差异的，不过更为准确地讲，声纹是一种“相对唯一”的生物特征。

　　在实际应用中，声纹识别受影响的因素比较多，首先注册模型上，受限于环境、身体状态等因素，一个人的声音会发生不用的变化;其次在应用中，也会受注册环境跟验证环境不一致造成的失配问题，致使声纹不能匹配;最后，声纹也会随着年龄的变化而变化。另外，虽然声纹可以实现非接触的，但是在入侵方面也增加了更多的风险，比如录音、合成器合成等。

　　其中针对某些问题，人工智能技术能够给予一定的帮助，比如环境对声纹收集和比对的影响。一般情况下，在语料覆盖率足够完整的前提下，将之用于模型的搭建和训练，在最终实际应用场景中，即使面对嘈杂的环境，系统在提取声纹特征时便会将这些因素“去掉”，从而确保声纹特征的精准。

　　什么是语料?是指一个人的声纹数据。