智能通信终端的关键技术研究

——

作者：时间：2007-08-24 来源：中国联通网站

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

顾名思义，智能 通信终端是指具有智能特征的通信终端，其根本特点应是具有视、听、说、理解和自学习、推理的能力，表现在具有拟人化的人机接口和友好的操作界面，应用语音识别和合成、文字识别、自然语言理解等语音及语言处理关键技术。

　　1　智能语音接口技术

　　智能接口，也称人机接口，是在智能通信终端上建立的一种拟人化的人机交互环境。智能接口技术除涉及人工智能和计算机科学外，与信号处理、电子技术、语言学、认知科学，乃至现代心理学、神经生理学等都有密切的关系。目前，在该领域中的主要研究课题有多媒体与虚拟现实、语音识别和合成、文字识别、计算机视觉和图像识别、自然语言处理、自动摘要及机器翻译等。由于语音是人类最自然的通信手段，人们的信息交互有60%是通过语音通信来完成的，因此目前通信终端的主体也基于语音通信。

　　1.1　语音识别

　　语音识别是对智能通信终端最具影响的技术之一。由于早期的语音识别是采用“模板法”来实现的，而这种基于模板匹配的语音识别，只能满足小词汇量、特定人、非连续语音识别的需求，无法提供人们对大词汇量、非特定人、连续语音识别的需要。智能通信的需求反过来又对语音识别技术提

出了更高的要求。

　　①电话语音识别　在高速数据信道和便携数据终端普及前，我们最先利用的仍是传统语音电话信道和一般意义上的电话终端，这就意味着需要识别经过整个电话信道而产生了某种畸变的语音信号。打电话时用户可能会处于各种嘈杂的环境，因此噪声背景下的语音识别也是要解决的问题。电话语音识别具有最迫切的市场需求，目前已成为国内外研究和开发的重点。

　　②语音识别的鲁棒性　各种噪声，特别是移动电话所产生的编码和信道噪声，是识别原始语音信号的一大干扰，且此类干扰随机发生。因此，需要一种能对各种环境、信道噪声进行过滤或在识别过程中加以纠正的技术。针对我国用户群随机的情况，需要建立普适度更高的模型或对不同口音自动适应，使系统具有较强的鲁棒性。

　　③口语语音识别　当电话语音识别技术用于实现电话查询、自动接线及专门业务(旅游信息服务等)操作时，会出现许多不符合语法的情况，产生冗余信息，这给语音识别带来大的挑战。

　　④多语种语音识别　网络时代必然会涉及多种语言，例如语音识别用于大都市电话查询服务时，用户可能使用汉语普通话、广东话，或者英语进行查询，这就要求识别系统有多语种识别的能力。

　　⑤分布式语音识别　分布式语音识别是在客户终端上做语音信号参数提取工作，而仅将参数传送到服务器端作进一步识别。不仅解决了信道噪声和现有编写终端计算存储能力的问题，还具有占用带宽窄、综合成本低等优点，但其前提是提取的参数必须标准化。随着个人、移动通信的需要，通信终端日趋小型化，各种掌上设备正进入人们的生活，如手机、商务通、个人助理等。用语音方式是解决输入/出及各种操作问题的最理想手段。

　　1.2　语音合成

　　语音合成技术是使电脑或通信终端具有类似于人一样的说话能力，是当今时代信息产业的重要研究领域。和语音识别相比，语音合成技术更成熟一些，是最有希望首先在智能通信终端中得到普遍应用并形成带动作用的一项关键技术。目前，语音合成有高自然度、芯片级、多语种、分步式和口语式的语音合成等发展方向。按照智能化程度的不同层次，语音合成可分为三个层次：从文字到语音；概念到语音；意向到语音的合成。为合成出高质量的语音，除依赖于各种规则，还必须对文字内容进行很好的理解。文字/语音的转换系统。

　　(1)文本分析

　　文本分析旨在确定文本中哪些是词、短语或句子；每个字应如何发音，一般由文本预处理、分词、韵律分析等环节组成。

　　此外，随着机器学习和数据发掘技术的发展，出现了基于数据驱动技术的文本分析方法。例如采用决策树或神经网络方法，从大量的数据中通过训练生成韵律模型。

　　(2)语音合成器

　　目前，最流行的语音合成器是采用基音同步的重叠相加(PSOLA)方法来实现波形拼接(这里指的基音或基频是语音韵律特征中的音高或声调的物理表现参数，基频曲线变化直接导致声调变化)。PSOLA算法的基本思想是以语音信号基音周期为分析对象，在基音同步基础上对信号声调和时长进行修改。

　　然而通过信号处理的方法调整韵律特性，终究会对音色有一定的损伤。即使是PSOLA算法，当韵律修正的范围变大时，音色也会有明显下降。基于“听感量化”波形拼接方法，其出发点就是语音合成时尽量减少动用合成器来调整韵律参数。由于“听感量化”单元从原始发音中直接截取，避免了用语音合成器调整参数时对音质的损害，保证了合成系统具有接近自然发音的音质，其自然度达到用户可接受的程度。

1.3　自然语言理解

　　语音识别与合成都离不开自然语言理解。语音识别中音/字转换和语音合成中字/音转换的正确率都取决于对语言理解的深度。从智能通信终端的应用看，系统有时不仅要正确识别用户的发音，而且要理解它，然后执行相应命令。此外，系统还需产生合适的回答，比如反问、反馈信息给用户。这就会涉及自然语言生成，这是语音合成的更高一级阶段，和自然语言理解更是密不可分。

　　随着Internet迅速扩张，自然语言理解的任务不仅是建立一种能够像人那样理解自然语言的计算模型，还需建立模拟人脑语言感知过程的理论模式。为使智能通信终端做到对口语和文字的理解，并及时响应，必须以语法与语义相结合，解决有关知识(特别是模糊知识)的表达与利用问题。自然语言理解在智能通信终端中的应用还包括：自然语言查询处理提供各种类型的相似性及或然性匹配，并返回按等级排列的检索结果；矫正利用语音识别自动生成的脚本中的错误；影像标题生成和摘要创建(如略览版的生成)等。

　　目前语音识别和语音合成采用统计的方法，即通过对大量的语料统计来实现自然语言理解的方法，如二/三元语言模型等非常实用，突破了传统分析方法对不受限语句的理解。

　　2　智能终端与语音门户

　　在当今飞速发展的信息社会，人们越来越希望可以通过移动电话等通信终端设备来实现快速便捷的交流，即通过移动电话等通信终端设备接入网络，并操纵远程信息源得到信息或进行电子化交易。目前，采用拨号接入网络的过程耗时长，而语音接入仅需短短几秒，这无疑将大大提高接入速度。另外，这种语音技术不但令使用者无论在何时、何地，都可以利用手中的通信终端设备轻松接入网络，得到所需信息或购买商品及服务，还将大大提高商业自动化程度、降低企业的运营成本、改善服务质量、使商务活动更加便捷。

　　语音门户，是指基于互联网平台，应用语音识别、合成和转换技术，为固定和移动电话用户提供用语音访问互联网并获取网上信息的门户，是全球互联网发展的最新趋势之一。语音门户融合了语音、CTI、Web、电信、计算机及网络等技术，构筑出新一代语音上网平台，将使更多的用户能够通过各类通信终端快速接入互联网，为企业带来新的业务增长点。从技术角度看，随着自动语音识别(ASR)、文本转语音(TTS)、口语对话等人机交互技术、信息处理技术的发展，以及像语音浏览器、嵌入式语音浏览器等Voice Web技术的成熟，再加上移动用户终端种类与功能的快速增加，使语音门户在通信终端中的应用提供了可靠保证。

　　(1)分布式语音处理

　　①分布式语音识别在智能通信终端中，语音识别的首要目标是使用户不用敲击或远离键盘即可轻松访问大部分计算机服务和通信系统。分布语音识别 (DSR)技术采用客户机/服务器方法，整个处理过程分布于终端(如手机)和网络两端。终端执行语音特征参数提取任务，是语音识别系统的前端。提取的特征参数通过数据信道传输至远程的后端识别器。这样，传输信道不影响识别系统性能，信道不变性的目的得以实现。而目前基于因特网上的分布式语音识别是由呼叫中心发展而来，并已在基于包交换的VoIP网络进行了测试。

　　②分布式语音合成在基于网络应用，特别是客户机/服务器典型模式下，终端与服务端之间的实现之间必然存在矛盾，加上信道、处理资源与用户体验等多方面的综合影响，语音合成的分布式实现了把传统TTS的处理环节分解成为标准化的实现模块：文本分析和语音合成模块。文本分析模块涉及词典、分词、各种语言学处理，将占用较大资源，可放在服务器端实现，即经过处理后形成音韵序列再传送到终端上去；语音合成模块则可以放在终端上实现。由于音韵序列基本上由符号数据组成，与直接传送文本数据占用的信道带宽差不多，不影响传输性能，但却反而使终端摆脱了文本分析的压力，降低了成本。当然，标记语言和数据传送的格式必须标准化，才能得以推广。

　　(2)语音浏览器

　　语音浏览器通过语音的方式浏览VXML(基于XML国际标准的语音可扩展标识语言，像HTML定义图形化网页界面一样定义了语音界面)内容，并通过 Transcoder服务器直接浏览网上HTML格式的内容。它主要包括Voice XML、电话语音接入、TTS/ASR资源及Transcoder服务器。

语音浏览器是希望使普通电话作为浏览器终端，应用自然语言交互的方式取得相关的定制信息服务或Internet上发布的Web信息内容，通过电话终端与服务器端的语音接人、ASR/TTS、VXML服务器以及各种Transcoder，构成相当于IE的浏览器，实现语音上网工程的核心组成部分。应用语音浏览器可使我们轻松地用电话、电视等电子或电气设备走进互联网；在将来，它还可支持其他模式和媒体，如用笔、图像和传感器作为输入，用活动图像和激励控制作为输出；便携式语音浏览器可在任何地方使用，网上信息便随手可得，特别是那些有电话或移动电话的用户更是如此；为盲人用户提供方便的实用接口，使他们获得和正常人一样的工作空间；跨越各种平台，像电脑、电视、电话(包括移动电话)等，使人们随时随地获取所需的网上信息，并用语音表达出来。随着其中各项技术的发展、成熟和完善，语音浏览器市场将会迅速发展起来。

　　(3)嵌入式语音浏览器

　　嵌入式语音浏览器支持HTTP或者WAP等传输协议及HTML、JavaScript、扩展XML、Voice XML等标记语言，可完成网页浏览功能；适合在非PC的嵌入式信息设备中存在、运行，并完整实现通信传输协议、标记语言所规定的功能；根据嵌入式设备的多样性需求进行裁减和修改，并满足信息设备使用者方便地获取文字、图像、声音、视频等信息；可广泛应用到各种非PC设备或通信终端，如电视上的机顶盒、交互式数字电视、手持上网设备(移动电话、掌上电脑、个人数字助理等)、互联网电话、网络终端、电子图书阅读器、公共信息查询系统等。

　　3　网络的自适应

　　在通信时，智能通信终端应能自动检测所连接的网络及传输方式(模拟通信网络、数字通信网络、ISDN、无线连接等)，选择最优化的网络及传输方式，自适应地连接到所选择的网络中去，以所选择的网络要求的处理方式处理数据，开展工作。

　　未来的智能通信终端不仅小巧便携，使用简便，而且功能多，能满足人们各种不同种类信息传输的需求。无论何时何地，用户都可随机发送或接收信息，并能根据所处环境，自适应地选择最优传输网络。未来的智能通信终端不再是只能进行某一种通信的终端，而是可以进行许多种类的通信。

新闻中心

智能通信终端的关键技术研究

评论

相关推荐

技术专区