从嵌入式视觉到视觉导向机器学习的挑战

作者：时间：2017-07-12 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　今天我们讨论终端的计算和嵌入式计算的时候，也需要来讨论机器学习的推断，再加上计算机视觉，还有传感器融合和任意互联，来实现新一代的视觉导向自主和智能系统。

本文引用地址：https://www.eepw.com.cn/article/201707/361656.htm

机器学习概况

　　根据Moor Insight & Strategy提供的机器学习范围图(如图1)，在纵轴上主要是行业领域，横轴上主要是关于应用的位置，看它是嵌入式的应用还是更多靠近云端。但是也有一些应用是既在边缘/终端，又在云上，也就是说它首先进行本地智能的处理，之后还要到云端进行分析，使得它的解决方案能够更加强大。

图1 机器学习从端到云覆盖的视觉领域

　　关于右侧列的深色应用区块，2016年底，Xilinx推出的可重配置加速堆栈更多是关注这部分，当然也可以适用于中间一些混合解决方案。不久前Xilinx推出的reVISION堆栈，希望把它应用于左侧列非常广泛的机器学习领域，也有中间的一些少量的应用，即图1的浅色区块部分。可见reVISION加上可重配置加速堆栈，能够实现从终端到云的全面覆盖和布局，推动下一代的机器学习。

　　具体地，现在在出现这样一种转型，即越来越多的从图2左边的应用转向右边的应用。左边的应用都是非常简单的传感器的配置，一般是各种各样的摄像头，并有一个非常核心的技术，也就是计算机视觉处理技术来识别整个框架环境中的物体。右边的应用会越来越使用各种不同类型的传感器技术，再加上图像传感器，还要和机器学习实现智能的融合。例如，过去在工厂里有机器人在笼子里来完成它们的工作，但是现在已经有了新一代的协作机器人，它们是与人肩并肩一起在工作，而且它们是可以移动的。同样，在汽车ADAS(高级驾驶员辅助系统)里包含有前视摄像头。但是现在为了要支持自动驾驶汽车的发展，摄像头也是多种多样，会有不同的传感器，例如远程雷达、中程雷达、短程雷达，还有激光雷达、毫米波雷达等不同类型的传感器。再加上机器学习的融合，使得这些车辆在行驶时能够做出自己的决策。所以，现在客户更多地要求从左边的应用转向右边的应用，这个过程中就出现了一个很大的转型。

图2 从嵌入式视觉向视觉导向的自主系统演变

　　客户的三个主要的应用使命或要求是：1.智能性及高效的立即响应性，比如行人从车前经过。2.升级到最新算法和传感器的灵活性。3.在一个万物互联的物联网世界，还需要实现随时与其他机器及云保持连接。

　　很多开发视觉产品的客户通常采用传统的RTL流程(图3)，需要具备相应的硬件方面的专有知识。所以要真正实现非常广泛的视觉应用，就必须要支持新的编程模式，也就是软件定义的编程，同时还要满足相应行业标准库和新型的框架来支持机器学习的应用。所以，通过软件定义的编程以及符合行业标准的库和框架，就能够扩展视觉导向的机器学习应用范围。

　　reVISION堆栈包含一些基础的平台，可以支持算法的开发，而且它带有非常符合行业标准的库和元素，针对于计算机视觉以及机器学习都是非常重要的。而且，它又更进一步采用的是应用的开发商喜闻乐见的平台。这些框架包括在机器学习领域是Caffe，在计算机视觉领域就是OpenVX(如图3右侧)。

图3 从传统RTL流程到一站式开发(注：此图以Xilinx产品为例)

　　图3纵轴上表现的是开发应用时所需要的时间和精力，横轴上显示的是开发这些应用所使用的方法。大约在2010年以前，Xilinx推出了新的提高产率的工具，也就是基于RTL的硬件设计的工作流程。2015年下半年，Xilinx推出软件定义的编程环境——SDSoC，基于Xilinx的Zynq SoC芯片，主要是嵌入式的应用。通过2017年上半年推出的reVISION堆栈，开发时间可以大大压缩。所以，传统的模式是Xilinx提供芯片以及开发环境中20%的解决方案，剩下的80%要由客户来完成。但是有了reVISION堆栈以后，Xilinx能够完成解决方案当中80%的工作，剩下的客户只要完成20%，就可以实现其应用。

　　经Xilinx测算，相比同类产品(诸如英伟达的Tegra和典型SoC)，Xilinx reVISION将机器学习推断的单位功耗图像捕获速度提升了6倍，将计算机视觉处理的单位功耗帧速度提升了42倍。在实时快速响应的系统当中，更重要的一个参数是时延，Xilinx在时延方面只有同类产品的1/5。

软硬件的可重配置性和可编程性

　　图4显示的是不同类别的传感器演进的过程，如果Xilinx看一下这些视觉导向应用，比如图像，Xilinx可以看到在传感器的类型和配置方面是出现了一个爆炸，这种情况Xilinx把它称作传感器的融合。Xilinx可以看到是人工智能和机器学习的不断扩展驱动了这种传感器融合的趋势，所以也需要可重配置性来跟上这些变化的步伐。

4_看图王.jpg

图4 神经网络演进速度

　　如果把所有这些元素都放在图5里。纵轴体现的是系统的响应时间，横轴体现的是系统可重新配置的能力来适应新的神经网络、算法和传感器。为了做到全面完整，在这里也包含了CPU和大型的GPU。这些器件在推断方面表现是非常优异的，但是在时延方面就不是那么理想，但是由于它们精度非常高，所以它们非常适用于在一些数据中心的研发方面的训练，所以它们响应的时间方面是非常低的，但是因为它们需要固定的硬件，它们的可重配置性方面也很低。而reVISION具有很强的可重配置性和可编程性。

5_看图王.jpg

图5 传感器的演进趋势

新闻中心

从嵌入式视觉到视觉导向机器学习的挑战

评论

相关推荐

技术专区