新闻中心

EEPW首页 > 业界动态 > Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

作者:时间:2017-03-30来源:雷锋网收藏

  Nikko Strom,现任亚马逊首席科学家,是 Echo 和 项目的创始成员,在技术相关领域有着资深的研究及从业经验:

本文引用地址:http://www.eepw.com.cn/article/201703/345967.htm

  ● 1997 年于瑞典皇家理工学院语音通信实验室获得博士学位,后担任MIT计算机科学实验室研究员;

  ● 2000 年加入语音技术初创公司 Tellme Networks;

  ● 2007 年随着 Tellme Networks 被微软收购,加入微软,推进商业技术的前沿研究;

  ● 2011 年加入亚马逊,担任首席科学家,领导及相关领域的深度学习项目。

  以下是 Nikko Strom 在本次大会上的演讲。

  先简单介绍下我们的产品。如果你买了 Amazon Echo,意味着你可以通过 语音识别系统控制它,并与它对话,而且不需要拿遥控器。左边(下图)是 Holiday Season,是我们新加入的白色Echo和Dot,相信在座应该有很多人比较偏爱白色的电子产品。

  Echo 还可以与没有内置 系统的家电进行连接,如灯具、咖啡机、恒温器等,只需要唤醒Alexa,就可以让这些家电设备执行一些命令。此外,开发者还可以通过工具包 Alexa Skills Kit,打造个性化的功能。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  现如今,Echo已经进入了数百万用户的家中,每天它都在被大量地使用着,也让我们得到了无法想象的数据量。

  深度学习基础框架

  事实上,人耳并非每时每刻都在搜集语音信息,真正在“听”的时间大约只占 10%,所以一个人成长到 16岁时,他/她所听到的语音训练时间大概有 14016 个小时。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  回到 Alexa,我们把数千个小时的真实语音训练数据存储到 S3 中,使用 EC2 云上的分布式 GPU 集群来训练深度学习模型。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  训练模型的过程中发现,用 MapReduce 的方法效果并不理想,因为节点之间需要频繁地保持同步更新,不能再通过增加更多的节点来加速运算。也可以这样理解,就是GPU集群更新模型的计算速度非常之快,每秒都会更新几次,每次的更新大约是模型本身的大小。也就是说,每一个线程(Worker)都要跟其它线程同步更新几百兆的量,而这在一秒钟的时间里要发生很多次。所以,MapReduce的方法效果并不是很好。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  我们在 Alexa 里的解决方法就是,使用几个逼近算法(Approximations)来减少更新规模,将其压缩 3个量级。这里是我们一篇 2015 年论文里的图表,可以看到,随着GPU线程的增加,训练速度加快。到 40 个 GUP 线程时,几乎成直线上升,然后增速有点放缓。80 GPU 线程对应着大约 55 万帧/秒的速度,每一秒的语音大约包含 100 帧,也就是说这时的一秒钟可以处理大约90分钟的语音。前面我提到一个人要花 16 年的时间来学习 1.4 万小时的语音,而用我们的系统,大约 3 个小时就可以学习完成。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  这就是 Alexa 大致的深度学习基础架构。

  声学模型

  大家都知道,语音识别系统框架主要包括四大块:信号处理、声学模型、解码器和后处理。

  

Nikko Strom揭秘语音识别技术:Alexa是怎样炼成的?

 

  首先我们会将从麦克风收集来的声音,进行一些信号处理,将语音信号转化到频域,从每 10 毫秒的语音中提出一个特征向量,提供给后面的声学模型。声学模型负责把音频分类成不同的音素。接下来就是解码器,可以得出概率最高一串词串,最后一步是后处理,就是把单词组合成容易读取的文本。

  在这几个步骤中,或多或少都会用到机器学习和深度学习的方法。我今天主要讲一下声学模型的部分。


上一页 1 2 下一页

关键词: Alexa 语音识别

评论


相关推荐

技术专区

关闭