3D手势识别背后的技术
3D 视觉技术的比较
不同的应用或市场适用于不同的 3D 视觉技术。图 1 显示了不同 3D 视觉技术的比较及其相关响应时间、软件复杂性、成本及准确性的相对优缺点。
立体视觉技术需要极高的软件复杂性才能获得高精度 3D 深度数据,其通常可通过数字信号处理器 (DSP) 或多内核标量处理器进行处理。立体视觉系统支持小巧的外形与低成本,是移动电话等消费类设备的良好选择。不过,立体视觉系统的精确度与响应时间不及其它技术,因此对于制造质量控制系统等要求高精度的系统来说不太理想。
结构光技术是包括 3D 计算机辅助设计 (CAD) 系统在内的 3D 对象扫描的良好解决方案。这些系统的相关软件复杂性可通过硬接线逻辑解决(如 ASIC 与 FPGA 等),其需要高昂的开发及材料成本。此外,该计算复杂性还可导致较慢的响应时间。在实现微观层面上的高精度方面,结构光模式技术优于其它 3D 视觉技术。
TOF 系统取得了性能与成本的平衡,非常适用于需要快速响应时间的制造与消费类电子设备等应用领域的设备控制。TOF 系统软件复杂程度通常较低,不过这些系统需要昂贵的照明部件(LED、激光二极管)以及高速接口相关部件(快速 ADC、快速串行/并行接口、快速 PWM 驱动器),这将提升材料成本。图 1 显示了这三种 3D 传感器技术的对比情况。
“z”(深度)如何影响人机界面
随着“z”坐标的加入,显示与影像更接近自然,更贴近人类。人们在显示屏上能看到人眼从周边环境所看到的逼真事物。增加这第三维坐标改变了可使用的显示与应用类型。
显示
立体显示屏
立体显示屏通常需要用户佩戴 3D 眼镜。这种显示屏为左右眼提供不同的影像,两眼看到的影像不同,让大脑误以为看到了 3D 影像。这种显示屏目前广泛用于众多 3D 电视与 3D 电影院。
多视点显示屏
多视点显视屏不同于立体显示屏,无需佩戴特殊眼镜。这些显示屏可同时投射多个影像,每个影像稍微有些位移,形成适当的角度,让用户可在每个视点角度看到相同对象的不同投射影像。这些显示屏支持全息摄影效果,在不久的将来将实现全新的 3D 体验。
检测与应用
处理并显示“z”坐标的功能将实现全新的应用,其中包括游戏、制造控制、安全、互动数字标牌、远程医疗、汽车以及机器人视觉等。图 2 是身体骨架与深度映射传感技术所支持的某些应用领域视图。
人类手势识别(消费类)
人类手势识别是一项深受欢迎的新技术,可为游戏、消费类以及移动产品带来新的输入方式。用户能够以极其自然、直观的方法与设备进行互动,从而可促进产品推广。这些人类手势识别产品包括从 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各种分辨率的 3D 数据。原始数据到z深度解析、双手跟踪以及全身跟踪等软件模块需要数字信号处理器 (DSP) 对 3D 数据进行高效快速处理,才能实现实时游戏与跟踪。
工业
工业与制造传感器等大多数 3D 视觉工业应用都采用至少 1 像素至数 100k 像素的影像系统。3D 影像可使用 DSP 技术进行控制分析,确定制造瑕疵或者从部件集中选择正确的部件。
互动数字标牌(精确定位的市场营销工具)
每天我们都在遭受广告的轰炸,无论是看电视、开车还是在机场登机都是如此。有了互动数字标牌,企业就可通过精确定位的市场营销工具提供适合每位消费者的内容。例如,有人走过一个数字标牌,标牌上可能就会马上显示额外的消息确认该客户。如果客户停下来阅读信息,该标牌可能会理解为客户对产品感兴趣,并提供更有针对性的消息。麦克风则将让广告牌检测并识别关键短语,进一步精确定位所提供的消息。
这些互动数字标牌系统将需要 3D 传感器进行全面的身体跟踪,2D 传感器进行面部识别,并需要麦克风进行语音识别。这些系统的软件将运行在更高级的 DSP 及通用处理器 (GPP) 上,不但可实现面部识别、全面的身体跟踪以及 Flash 媒体播放器等应用,而且还可提供诸如 MPEG4 视频解码等功能。
医疗(无故障虚拟/远程护理)
3D 视觉将为医疗领域带来前所未有的全新应用。医生无需跟患者共处一室就可问诊。远程虚拟护理采用高精度 3D 传感器支持的医学机器人视觉系统,可确保为每一位患者提供最优质的医疗护理,无论他们身处何方。
评论