Nikko Strom揭秘语音识别技术：Alexa是怎样炼成的？

作者：时间：2017-03-30 来源：雷锋网

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　Nikko Strom，现任亚马逊首席科学家，是 Echo 和 Alexa 项目的创始成员，在语音识别技术相关领域有着资深的研究及从业经验：

本文引用地址：https://www.eepw.com.cn/article/201703/345967.htm

　　● 1997 年于瑞典皇家理工学院语音通信实验室获得博士学位，后担任MIT计算机科学实验室研究员;

　　● 2000 年加入语音技术初创公司 Tellme Networks;

　　● 2007 年随着 Tellme Networks 被微软收购，加入微软，推进商业语音识别技术的前沿研究;

　　● 2011 年加入亚马逊，担任首席科学家，领导语音识别及相关领域的深度学习项目。

　　以下是 Nikko Strom 在本次大会上的演讲。

　　先简单介绍下我们的产品。如果你买了 Amazon Echo，意味着你可以通过 Alexa 语音识别系统控制它，并与它对话，而且不需要拿遥控器。左边(下图)是 Holiday Season，是我们新加入的白色Echo和Dot，相信在座应该有很多人比较偏爱白色的电子产品。

　　Echo 还可以与没有内置 Alexa 系统的家电进行连接，如灯具、咖啡机、恒温器等，只需要唤醒Alexa，就可以让这些家电设备执行一些命令。此外，开发者还可以通过工具包 Alexa Skills Kit，打造个性化的功能。

　　现如今，Echo已经进入了数百万用户的家中，每天它都在被大量地使用着，也让我们得到了无法想象的数据量。

　　深度学习基础框架

　　事实上，人耳并非每时每刻都在搜集语音信息，真正在“听”的时间大约只占 10%，所以一个人成长到 16岁时，他/她所听到的语音训练时间大概有 14016 个小时。

　　回到 Alexa，我们把数千个小时的真实语音训练数据存储到 S3 中，使用 EC2 云上的分布式 GPU 集群来训练深度学习模型。

　　训练模型的过程中发现，用 MapReduce 的方法效果并不理想，因为节点之间需要频繁地保持同步更新，不能再通过增加更多的节点来加速运算。也可以这样理解，就是GPU集群更新模型的计算速度非常之快，每秒都会更新几次，每次的更新大约是模型本身的大小。也就是说，每一个线程(Worker)都要跟其它线程同步更新几百兆的量，而这在一秒钟的时间里要发生很多次。所以，MapReduce的方法效果并不是很好。

　　我们在 Alexa 里的解决方法就是，使用几个逼近算法(Approximations)来减少更新规模，将其压缩 3个量级。这里是我们一篇 2015 年论文里的图表，可以看到，随着GPU线程的增加，训练速度加快。到 40 个 GUP 线程时，几乎成直线上升，然后增速有点放缓。80 GPU 线程对应着大约 55 万帧/秒的速度，每一秒的语音大约包含 100 帧，也就是说这时的一秒钟可以处理大约90分钟的语音。前面我提到一个人要花 16 年的时间来学习 1.4 万小时的语音，而用我们的系统，大约 3 个小时就可以学习完成。