新闻中心

EEPW首页 > 消费电子 > 业界动态 > 语音识别这么火 但你知道它的发展史吗?

语音识别这么火 但你知道它的发展史吗?

作者:时间:2016-12-01来源:机器人圈收藏
编者按:在计算机能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,还有很长的路要走,真正的人工智能仍然还在遥远的地平线上。

  语言,之所以重要,在于人类的思维能力是伴随着它的产生而迅速发展的,这也是人类在智能上区别于其他物种的原因。,作为人工智能应用的一个场景,也是研究者们一直试图解决的问题。

本文引用地址:http://www.eepw.com.cn/article/201612/340933.htm
语音识别这么火 但你知道它的发展史吗?

  2016年10月底,微软宣布实现了历史性突破,词错率仅5.9%,英语的语音转录达到专业速录员水平,微软的此次突破是机器的识别能力在英语水平上第一次超越人类。微软的这条消息发布之后在业内引起了极大的关注。一直是国内外许多科技公司重点发展的技术之一,百度首席科学家吴恩达就发推特恭贺微软在英语语音识别上的突破,同时也回忆起一年前百度在汉语语音识别上的突破,其Deep Speech2的短语识别的词错率已经降到了3.7%,Deep Speech2转录某些语音的能力基本上是超人级的,能够比普通话母语者更精确地转录较短的查询。

  梦想从贝尔实验室开始

  不久前,麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》(MITTechnologyReview),评选出了“2016年十大突破技术”。《麻省理工科技评论》称,在过去的一年里,这十项技术均已到达一个里程碑式的阶段或即将到达这一阶段。而语音识别的突破就是其中的第三项。

  回顾人类发展史,不难看出,随着人的不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式的传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。

  1946年,现代电子计算机出现后,计算机在很多事情上做得比人还好,既然如此,机器能不能懂得自然语言呢?与机器进行语音交流,让它听明白你在说什么,语音识别技术是计算机一出现,人类就开始憧憬的一大梦想。

  最早提出机器智能概念的是计算机科学之父阿兰·图灵,1950年他在《思想》(Mind)杂志上发表了一篇题为“计算的机器和智能”的论文。在论文中,图灵并没有提出什么研究方法,而是提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这种方法被后人称作图灵测试。图灵其实是留下了一个问题,而非答案,但是一般认为对自然语言的机器处理可以追溯到那个时候。

  科学家认为语音识别就好比“机器的听觉系统”,该技术可以让机器通过识别和理解,把语音信号转变为相应的文本或命令。1952年,贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。

  事实上,语音识别60多年的发展过程可以分成多个阶段。早期的20多年,即从20世纪50年代到70年代,是科学家们走弯路的阶段,全世界的科学家对计算机完成语音识别这类只有人才能做的事情,认为必须先让计算机理解自然语言,这就局限在人类学习语言的方式上了,也就是用电脑模拟人脑,这20多年的研究成果近乎为零。

  贾里尼克的贡献

  直到1970年后,统计语言学的出现才使语音识别重获新生,并取得了今天的飞凡成就。推动这个技术路线转变的关键人物是德里克·贾里尼克(FrederickJelinek)和他领导的IBM华生实验室(T.J.Watson),开始使用统计方法。采用统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。

  《从水门事件到莫妮卡·莱温斯基》是贾里尼克在1999年ICASSP(国际声学、语言和信号处理大会)做的报告题目,因为水门事件发生的时间1972年,恰好是统计语音识别开始的时间,而因莱温斯基事件弹劾克林顿总统正好发生于当时会议的前一年。

  贾里尼克在康奈尔十年磨一剑,潜心研究信息论,终于悟出了真谛。1972年,贾里尼克到IBM华生实验室做学术休假,无意中领导了语音识别实验室,两年后他在康奈尔和IBM之间选择了留在IBM。

  20世纪70年代的IBM有点像90年代的微软和过去十年(施密特时代)的Google,任由杰出科学家做自己感兴趣的研究。在那种宽松的环境里,贾里尼克等人提出了统计语音识别的框架结构。

  在贾里尼克之前,科学家们把语音识别问题当作人工智能和模式匹配问题,而贾里尼克将它当作通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架结构至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被Technology杂志评为20世纪100名发明家之一。

  贾里尼克的前辈们在将统计的方法应用于语音识别时,遇到了两个不可逾越的障碍:缺乏计算能力强大的计算机和大量可以用于统计的机读文本语料,最后前辈们不得不选择放弃。20世纪的IBM,虽然计算机的计算能力不能和今天相比,但已可以做不少事了,贾里尼克和他的同事需要解决的问题就是如何找到大量的机读语料。好在当时有一项全球性的业务是通过电信网连接在一起的,那就是电传,IBM的科学家最初就是通过电传业务的文本开始进行研究的。

  为什么当初是没有什么语音识别基础的IBM,而不是在这个领域里有很长研究时间的贝尔实验室或者卡内基-梅隆大学提出统计语音识别的处理。很多历史的偶然性背后都有着它必然的原因,因为IBM有着这样的计算能力,又有物质条件,同时聚集了一大批世界上最聪明的头脑。

  基于统计的语音识别替代基于规则的前后方法交替经历了15年时间。之所以历经许久,是因为新的研究方法成熟需要很多年。


上一页 1 2 下一页

关键词: 语音识别

评论


相关推荐

技术专区

关闭