嵌入式机器视觉系统优化研究
3.1 选择合适的算法
在机器视觉算法优化过程中,速度和内存不可兼得,要想得到较快的运行速度必须适当增加内存空间的使用量。例如,在JPG图像有Huffman编码表,从YUV到RGB的变换也有变换表,本文计算梯度方向直方图HOG时需要用到18个方向的三角函数。这些运算原本较复杂,采用查表的方法之后,虽然占用了内存,但显著提高了运行速度。
3.2 代码效率的优化
代码效率优化的前提是要保证程序结果的正确性,在此基础上对空间复杂度和时间复杂度进行调整,以达到性能的提升。代码效率优化可以采用多种方法。
1)采用较短的数据类型
本文实验中浮点数据类型用float代替double,目标检测结果基本不变,但是运算量和所占用内存空间都相应减少。
2)switch语句优化
对于switch语句,编译器是按照顺序进行条件比较,发现匹配时,就跳转到满足条件的语句执行。为了提高速度,可以把发生频率较高的条件放在前面。
3)用指针代替数组
在许多情况下,可以用指针运算代替数组索引,编译后常常能产生又快又短的代码。与数组索引相比,指针一般能使代码速度更快,占用空间更少,这在使用多维数组时差异更明显。
4)用宏函数取代函数
函数和宏函数的区别就在于,宏函数占用大量的空间,而函数占用了时间。当函数被多次调用时,会反复进行压栈和弹栈操作,从而消耗一些额外的时间。使用宏函数不会产生函数调用,所以仅仅占用了空间,不会增加额外的运行时间。
5)循环优化:采用循环合并与循环展开
当两个循环的负荷都不满时,可以把它们合并在一起组成一个循环。循环展开就是把循环计数小的循环展开,成为非循环形式的串行程序,或者把循环计数大的循环部分展开,减少循环迭代次数,这样可以节省用于循环设置、初始化、增加和校对循环计数器的时间。
6)采用Inline函数
在C++中,当函数前加关键字Inline的声明,编译器会用函数内部的代码替换所有对该函数的调用。这样可以省去调用函数指令需要的执行时间以及传递变元和传递过程需要的时间。通常,这种优化在Inline函数被频繁调用并且只包含较短代码的时候最有效。
7)使用增量和减量操作符
在用到自增和白减运算时应尽量使用增量和减量操作符,因为增量符语句比赋值语句更快。
3.3 充分利用处理器特性进行加速
ARM+DSP的组合在嵌入式开发中堪称理想架构。DSP可专门用于处理密集型信号处理需求、复杂的数学函数以及图像处理算法,而ARM则可用于实现图形用户界面、网络连接及系统控制等。上面的代码优化措施是通用的方法,如果针对处理器的特性对程序进行优化,可以得到更好的优化效果。
1)利用开发工具对DSP程序进行优化
有很多算法在DSP平台可以实现,在ARM上也可以,但有些特定算法,如滤波、视频编解码等放在DSP上运行的效率较高。以往的开发中对DSP程序的优化更多是汇编程序的优化,但用汇编语言做开发和优化往往费时又费力。但是随着开发工具的更新,现在的C代码优化效率可达到手工汇编的90%。TI提供的C6EZRUN工具可以使开发人员能在DSP上运行ARM代码,而无需修改,并且从ARM到DSP代码的转换效率非常高。TI的另一个开发工具C6EZAccel则提供了一个包括数百个DSP优化型信号处理算法的程序库,通过ARM API加快开发进度。开发人员可以将更多的精力投入到算法设计中。
2)充分利用ARM处理器的NEON技术进行加速
ARM高级单指令多数据(SIMD)扩展亦称NEON技术,它是一种由ARM开发的64/128位混合SIMD体系结构,可以提升多媒体和信号处理应用程序的性能。其关键功能包括对齐和未对齐数据访问,支持整型定点和单精度浮点数据类型、与ARM核心的紧密耦合,以及具有多个视图的大型寄存器文件。NEON指令在ARM和Thumb-2中都可用。要生成NEON指令,必须在命令行中指定采用NEON技术的Cortex处理器。ARMv7之前的体系结构不提供NEON支持。如果要对进行优化,需要增加编译选项“-mcpu=cortex-a8-mfpu=neon”。
3.4 应用程序优化结果
在嵌入式实时程序设计时可以运用上面介绍的一种或多种方法来优化代码。以上方法主要是为了提高代码的执行效率,但会增加代码长度,降低可读性。在嵌入式程序设计中应合理地使用这几种技术以达到较好的优化效果。
运用上述方法,对基于HOG特征的物体检测算法进行优化,运行时间如图3所示。该算法是目前公认的准确率最高的目标检测算法。对汽车、大巴、自行车、行人的检测结果如图4所示。考虑到该算法的复杂性以及检测精度的要求,我们采用的是浮点数优化。结果表明,经过优化后程序运行速度约为原来的2.5倍。本文引用地址:https://www.eepw.com.cn/article/201610/306025.htm
4 结束语
随着嵌入式系统的高速发展,嵌入式机器视觉系统的应用也越来越广泛。如何把运算量大、算法复杂的机器视觉应用程序移植到嵌入式平台上并进行优化设计是重要的课题。本文针对嵌入式机器视觉系统的特点,在操作系统方面对内核和文件系统进行了精简,在应用程序方面做了大量的优化,并充分利用Cotex—A处理器的NEON加速技术,显著提高了嵌入式机器视觉系统的性能,对嵌入式机器视觉系统的开发具有借鉴意义。
评论