智能语音科技简史（2018版），这场技术革命从哪开始？

作者：时间：2018-04-20来源：与非网收藏

编者按：我国智能语音市场整体处于启动期，智能车载，智能家居，智能可穿戴等垂直领域处于爆发前夜。

　　1988年，卡耐基梅隆大学结合矢量量化技术(VQ)，用VQ/HMM方法开发了世界上第一个非特定人大词汇量连续语音识别系统SPHINX，能够识别包括997个词汇的4200个连续语句。

本文引用地址：http://www.eepw.com.cn/article/201804/378689.htm

　　同年，清华大学和中科院声学所在大词库汉语听写机的研制上取得了突破性进展。

　　1990年，声龙发布了第一款消费级语音识别产品Dragon Dictate，价格高达9000美元。

　　1992年，IBM引入了它的第一个听写系统，称为“IBM Speech Server Series (ISSS)”。

　　1992年研发的Sphinx-II在同年美国国防部先进技术研究计划署(DARPA)资助的语音基准评测中获得了最高的识别准确度，这主要得益于其在高斯混合和马尔可夫状态层次上用栓连参数平衡了可训练性和高效性。

　　1995年，Windows 95上首次搭载微软SAPI，它使应用程序开发者能够在Windows上创建语音程序。

　　1995年，AT&T研究院的 Dave Ladd， Chris Ramming， Ken Rehor 以及 Curt Tuckey 在头脑风暴关于互联网会如何改变电话应用的时候，产生了一些新的想法：为什么不设计这样一个系统来运行一种可以解析某种语音标记语言的语音浏览器，用来把互联网的内容和服务提供到千家万户的电话上。于是，AT&T就开始“电话网络项目”(Phone Web Project)。之后，Chris继续留在AT&T，Ken去了朗讯，Dave和Curt去了摩托罗拉。(1999年初的时候，他们分别在各自的公司迈出了语音标记语言规范实质性的第一步。因为他们的密友关系，这几家公司合作成立了一个VoiceXML论坛组织，IBM也作为一个创始公司加入了进来。)

　　1997年IBM ViaVoice首个语音听写产品问世，你只要对着话筒喊出要输入的字符，它就会自动判断并且帮你输入文字。次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’ 98。

　　1998年，微软在北京成立亚洲研究院，将汉语语音识别纳入重点研究方向之一。

　　2001年，比尔盖茨在美国消费电子展上展示了一台代号为MiPad的原型机。Mipad展现了语音多模态移动设备的愿景。

　　2002年，中科院自动化所及其所属模式科技公司推出了“天语”中文语音系列产品——Pattek ASR，结束了该领域一直被国外公司垄断的局面。

　　2002年，美国国防部先进技术研究计划署(DARPA)首先启动了EARS项目和TIDES 项目; 由于EARS项目过于敏感，EARS和TIDES两个项目合并为“全球自主语言开发”(Global Autonomous Language Exploitation，GALE)。GALE目标是应用计算机软件技术对海量规模的多语言语音和文本进行获取、转化、分析和翻译。

　　2006年，辛顿(Hinton)提出深度置信网络(DBN)，促使了深度神经网络(Deep Neural Network，DNN)研究的复苏，掀起了深度学习的热潮。

　　2009年，辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库TIMIT上获得成功。

　　2009年微软Win7集成语音功能。

　　2010年Google Vioce Action支持语音操作与搜索。

　　2011年初，微软的DNN模型在语音搜索任务上获得成功。

　　同年科大讯飞将DNN 首次成功应用到中文语音识别领域，并通过语音云平台提供给广大开发者使用。