语音识别这么火但你知道它的发展史吗？

作者：时间：2016-12-01 来源：机器人圈

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编者按：在计算机能理解其所听到或看到的事物的真正含义之前，还需要很长时间的工作，还有很长的路要走，真正的人工智能仍然还在遥远的地平线上。

　　语言，之所以重要，在于人类的思维能力是伴随着它的产生而迅速发展的，这也是人类在智能上区别于其他物种的原因。语音识别，作为人工智能应用的一个场景，也是研究者们一直试图解决的问题。

本文引用地址：https://www.eepw.com.cn/article/201612/340933.htm 语音识别这么火但你知道它的发展史吗？

　　2016年10月底，微软宣布语音识别实现了历史性突破，词错率仅5.9%，英语的语音转录达到专业速录员水平，微软的此次突破是机器的识别能力在英语水平上第一次超越人类。微软的这条消息发布之后在业内引起了极大的关注。语音识别一直是国内外许多科技公司重点发展的技术之一，百度首席科学家吴恩达就发推特恭贺微软在英语语音识别上的突破，同时也回忆起一年前百度在汉语语音识别上的突破，其Deep Speech2的短语识别的词错率已经降到了3.7%，Deep Speech2转录某些语音的能力基本上是超人级的，能够比普通话母语者更精确地转录较短的查询。

　　梦想从贝尔实验室开始

　　不久前，麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》(MITTechnologyReview)，评选出了“2016年十大突破技术”。《麻省理工科技评论》称，在过去的一年里，这十项技术均已到达一个里程碑式的阶段或即将到达这一阶段。而语音识别的突破就是其中的第三项。

　　回顾人类发展史，不难看出，随着人的不断进化，从最初通过手掌、肢体使用简单工具、传递简单信息，发展到控制发声并通过耳朵接收，形成了一个以语音为载体的快速信息传递通道和收发闭环，成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号，和视频信号、无线电信号一样是，非接触方式的传播，也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。而且声波对接收指向性的要求更宽松，这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群，语音更是最佳的交互选择。

　　1946年，现代电子计算机出现后，计算机在很多事情上做得比人还好，既然如此，机器能不能懂得自然语言呢?与机器进行语音交流，让它听明白你在说什么，语音识别技术是计算机一出现，人类就开始憧憬的一大梦想。

　　最早提出机器智能概念的是计算机科学之父阿兰·图灵，1950年他在《思想》(Mind)杂志上发表了一篇题为“计算的机器和智能”的论文。在论文中，图灵并没有提出什么研究方法，而是提出了一种验证机器是否有智能的方法：让人和机器进行交流，如果人无法判断自己交流的对象是人还是机器，就说明这个机器有智能了。这种方法被后人称作图灵测试。图灵其实是留下了一个问题，而非答案，但是一般认为对自然语言的机器处理可以追溯到那个时候。

　　科学家认为语音识别就好比“机器的听觉系统”，该技术可以让机器通过识别和理解，把语音信号转变为相应的文本或命令。1952年，贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年，英国的Denes等人研制了第一个计算机语音识别系统。

　　事实上，语音识别60多年的发展过程可以分成多个阶段。早期的20多年，即从20世纪50年代到70年代，是科学家们走弯路的阶段，全世界的科学家对计算机完成语音识别这类只有人才能做的事情，认为必须先让计算机理解自然语言，这就局限在人类学习语言的方式上了，也就是用电脑模拟人脑，这20多年的研究成果近乎为零。

　　贾里尼克的贡献

　　直到1970年后，统计语言学的出现才使语音识别重获新生，并取得了今天的飞凡成就。推动这个技术路线转变的关键人物是德里克·贾里尼克(FrederickJelinek)和他领导的IBM华生实验室(T.J.Watson)，开始使用统计方法。采用统计的方法，IBM将当时的语音识别率从70%提升到90%，同时语音识别的规模从几百单词上升到几万单词，这样语音识别就有了从实验室走向实际应用的可能。

　　《从水门事件到莫妮卡·莱温斯基》是贾里尼克在1999年ICASSP(国际声学、语言和信号处理大会)做的报告题目，因为水门事件发生的时间1972年，恰好是统计语音识别开始的时间，而因莱温斯基事件弹劾克林顿总统正好发生于当时会议的前一年。

　　贾里尼克在康奈尔十年磨一剑，潜心研究信息论，终于悟出了真谛。1972年，贾里尼克到IBM华生实验室做学术休假，无意中领导了语音识别实验室，两年后他在康奈尔和IBM之间选择了留在IBM。

　　20世纪70年代的IBM有点像90年代的微软和过去十年(施密特时代)的Google，任由杰出科学家做自己感兴趣的研究。在那种宽松的环境里，贾里尼克等人提出了统计语音识别的框架结构。

　　在贾里尼克之前，科学家们把语音识别问题当作人工智能和模式匹配问题，而贾里尼克将它当作通信问题，并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架结构至今仍对语音识别影响深远，它不仅从根本上使得语音识别有使用的可能，而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士，并被Technology杂志评为20世纪100名发明家之一。

　　贾里尼克的前辈们在将统计的方法应用于语音识别时，遇到了两个不可逾越的障碍：缺乏计算能力强大的计算机和大量可以用于统计的机读文本语料，最后前辈们不得不选择放弃。20世纪的IBM，虽然计算机的计算能力不能和今天相比，但已可以做不少事了，贾里尼克和他的同事需要解决的问题就是如何找到大量的机读语料。好在当时有一项全球性的业务是通过电信网连接在一起的，那就是电传，IBM的科学家最初就是通过电传业务的文本开始进行研究的。

　　为什么当初是没有什么语音识别基础的IBM，而不是在这个领域里有很长研究时间的贝尔实验室或者卡内基-梅隆大学提出统计语音识别的处理。很多历史的偶然性背后都有着它必然的原因，因为IBM有着这样的计算能力，又有物质条件，同时聚集了一大批世界上最聪明的头脑。

　　基于统计的语音识别替代基于规则的前后方法交替经历了15年时间。之所以历经许久，是因为新的研究方法成熟需要很多年。