基于多特征SVMs分类器的手语识别*

作者：杨全西安文理学院计算机科学系彭进业西北大学信息科学与技术学院时间：2009-04-14 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　引言

本文引用地址：https://www.eepw.com.cn/article/93422.htm

　　手语识别的目的就是通过计算机提供一种有效的、准确的机制将聋哑人常用的手语手势识别出来，使得他们与健全人之间的交互变得更方便、快捷。同时，手语识别的应用还可以提供更自然的人机交互方式，方便聋哑人对计算机等常用信息设备的使用。目前手语识别可以分为基于视觉(图像)的识别系统和基于数据手套(佩戴式设备)的识别系统。基于视觉的手势识别系统采用常见的视频采集设备作为手势感知输入设备，价格便宜、便于安装。鉴于基于视觉的手势识别方法交互自然便利，适于普及应用，且更能反映机器模拟人类视觉的功能，所以目前是手势识别的研究重点。

　　手语识别的研究开始于1982年，Shantz和Poizner实现了一个合成美国手语的计算机程序。之后，中国、美国、日本、德国等许多国家都进行了自己国家的手语识别与合成研究，并取得了许多重要的研究成果。Triesch和Malsburg开发了一种弹性图模板匹配技术对复杂背景下的手形进行分类[1]，在相对复杂的背景下的识别率达到86.2%。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势[2]。Starner[3]等在对美国手语中带有词性的40个词汇随机组成的短句子识别率达到99.2%。Yang等人采用7Hu不变矩特征量进行手语字母识别，最好识别率为90%[4]。

　　本文采用SVMs (Support Vector Machines，支持向量机)作为手语识别的分类器，提出了一种基于视觉的手语字母识别方法。SVMs在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。采用SVMs作为图像分类器首先要解决的问题是：如何用典型视觉特征来表征图像的不同视觉特性[5]。

　　在图像特征提取方面，为了能够同时表征图像的全局特性和局部特性，需要同时提取图像的全局特征和局部特征，并且这些特征中用以描述图像整体形状的特征应当具备平移、旋转和尺度不变性。SIFT(Scale Invariant Feature Transform)是一种对尺度空间、图像缩放、旋转甚至仿射不变的图像局部特征描述算子[6];而7Hu不变矩特征量具有平移、旋转和尺度不变性的特点，具有很好的稳定性，适合描述目标整体形状。

　　手语简介

　　手语是一种聋人使用的语言，是一种靠动作/视觉交际的特殊语言[7]。中国手语包括30个手指字母，大约5500个基本手势词。手指语是从字母语言发展起来的，是汉语手语的一种，用一个指式代表一个汉语拼音字母，按照汉语拼音方案拼成普通话。而手势语则是由象形语言发展起来的。它充分利用人的手势、表情和身体动作形象地表达物体和行动的最基本特征。

　　中国文字改革委员会、教育部等单位于1963年联合公布实施汉语手指字母方案[7]。方案中包括汉语拼音中26个单字母(A～ Z)和4个双字母(ZH、CH、SH、NG)如图1所示。

　　图1 中国手语字母表