新闻中心

EEPW首页 > 消费电子 > 业界动态 > 语音识别这么火 但你知道它的发展史吗?

语音识别这么火 但你知道它的发展史吗?

作者: 时间:2016-12-01 来源:机器人圈 收藏
编者按:在计算机能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,还有很长的路要走,真正的人工智能仍然还在遥远的地平线上。

  剩下的难题依旧

本文引用地址:https://www.eepw.com.cn/article/201612/340933.htm

  的独特性不仅仅是因为其成就:尽管已有成果斐然,但剩下的难题和目前已克服的一样令人生畏。

  随着研究思路的变化,大规模的研究始于20世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。20世纪80年代以后,语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。20世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。

  但在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在20世纪70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。根据DARPA资助的多次语音评测,语音识别词错误率已经是评估进步的主要指标。

  我国的语音识别研究起始于1958年,由中国科学院声学研究所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展阶段。直至1973年,中国科学院声学研究所开始了计算机语音识别。

  进入80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过多年的沉寂之后重又成为研究热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。

  1986年,语音识别作为智能计算机系统研究的一个重要组成部分,被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。

  大数据与深度神经网络带来的大爆发

  任何技术都有蓄能阶段和爆发阶段,语音识别技术的爆发是源于大数据,伴随互联网出现的涟漪效应和深度神经网络。涟漪效应,指互联网思维在提高核心技术表现中的作用。也有人称之为优化迭代,比如吴恩达将其称之为把研究层、产品和用户使用组合在一起,形成一个闭环的迭代优化,这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据,还能学习经验、认识以及怎么使用等,比如说调整哪些东西让用户体验得更好。

  语音识别是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。比如说用户在说话时会截断,这样你就可以通过调整一些参数来提升表现。因为语音识别不仅是数据多了,识别率提高了,还有更多的因素,比如说用户的感觉、一些关键的参数点、经验等,这些都是可以学习到的。互联网思维所带来的就像软件迭代一样,通过反馈回来的信息进行调整,这是最核心的。

  在大数据时代到来后,隐马尔可夫模型出现了局限,即数据量提升时,它带来的表现提升没有深度神经网络那么大,但其实都属于统计模式识别。在语音识别发展的过程中,深度学习是同时发生的一件事,如果没有深度神经网络,但是有大数据和涟漪效应,隐马尔可夫模型也可以做到实用。深度神经网络是让其做得最好,降低了门槛,让更多的人可以加入进来。在同样具有涟漪效应的情况下,深度神经网络比之前的算法好,数据越多,深度神经网络的效果更好。还有更加重要的一点,深度神经网络只是整个统计机器模式识别理论框架中的一个环节而已,真正重要的环节是统计决策系统。

  深度神经网络由Geoffrey Hinton与微软的邓力研究员最先开始做,谷歌是最早在全球范围内大规模使用深度神经网络的公司,谷歌的VoiceSearch也在最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度神经网络的公司。

  语音识别技术已经发展了几十年的时间,因为大数据和深度神经网络的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,但据TechCrunch统计,美国至少有26家公司在开发语音识别技术。

  不过,尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给科大讯飞、百度、搜狗等在汉语领域实现突出表现提供了机会。在国内,这些本土化产品更为用户所熟知。

  从识别到感知认知

  在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。现如今,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。

  尽管视觉和语音识别在近些年来都取得了巨大的进步,但这些研究者仍然提醒说,还有很多的工作要做。

  展望未来,研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开,并且确保其能够在各种各样的声音上发挥效用,而不管说话人的年龄、口音或说话能力。

  从更长远来看,研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号,而且还要理解他们所说的话。这样就能让这项技术可以根据自己被告知的内容回答问题或采取行动。

  下一个前沿是从识别走向理解,我们正在从一个人类必须理解计算机的世界迈向一个计算机必须理解我们的世界。


上一页 1 2 下一页

关键词: 语音识别

评论


相关推荐

技术专区

关闭