新闻中心

EEPW首页 > 嵌入式系统 > 设计应用 > 一种ASIC硬件图像匹配最大互相关算法的设计和实现

一种ASIC硬件图像匹配最大互相关算法的设计和实现

作者:时间:2011-07-05来源:网络收藏

  2.1 专用器件LS9501介绍

  LS9501[2]是西安微电子技术研究所根据的特点研制成功的一个高速[20M]二维具有3x3内核的卷积器,它的主要功能是可同时对9对象素值乘加运算,即:.LS9501的输入是二维无符号8位的数据,输出是无符号20位卷结果和二维串行移位无符号8位的图像数据。其内部结构采用流水线并行技术,主要的功能单元有寄存器组、快速乘法器、加法器和控制电路,如图2所示。电路中设置的两组寄存器A和B由9个8位的移位寄存器构成,可存放9个图像象素数据。9个快速乘法器可保证在每一个时钟内同时进行9对图像数据相乘。其工作原理为:向A寄存器输入9个实时图象素数据后,再向B寄存器输入入九个基准图像素数据,当9对象素值输入完后,经过一定时间延迟,即可得到卷积结果。此后,如A寄存器的数据不变,B寄存器继续输入数据,则每输入一个数据,即可获得一个9个图像象素数据卷积结果。如果将多个LS9501卷积器级连起来,可更多对象素数据的卷积运算。例如,将4个LS9501级连,可实现36对象素数据的卷积,但要将4个卷积器的结果加起来,才能得到最后的结果。为此,西安微电子技术研究所研制了级连加法器LS9502,它的功能是在60ns内将4LS9501的输出结果求和。

  3 图像计算机结构

  将4个卷积器LS8501和级连加法器LS9501组合起来作为TMS320C30数字信号处理器的快速协处理器部件,可组成高速的单DSP+多系统结构的嵌入式计算机,如图3所示。其工作过程为:首先TMS320C30按一定次序把36个实时图象素数据从实时图存储器中取出并输入LS9501的A寄存器中,然后,从基准图存储中将基准图像素数据输入B寄存器。输入36个基准图像素数据后,经过一定时间延迟,即可读出第一个36对图像象素数据卷积结果。此后即建立起流水,每输入一个基准图数据可得到相应36对图像象素数据卷积结果,直至对整个基准图匹配计算完。当实时图比较大时,可把实时图分成若干子图,然后对每一个子图分别进行卷积运算,最后再把它们的结果加在一起。这样,工作量的匹配计算任务由LS8501完成,TMS320C30将各个图匹配结果进行累加,求值,并对卷器控制输入8位灰度图像数据。

  4 图像匹配结果与讨论

  在上述图像匹配计算机中,采用美国TI公司的TMS320C30(33M)DSP芯片主为处理器,4片关并行的LS9501和级连加法器LS9502组成图像匹配协处理器,外部图像存储器读写为零等待状态。根据组成的计算机系统结构,把36x36的实时图分成36个4x9的子图,然后计算每一子图与相应基准图子图卷积,最后把各个子图卷积结果累加在一起。通过编写TMS320C30汇编程序,对不同大小实时图和基准图进行搜索(即匹配所有(M-N+1)2个子图)互相差匹配运算,运算结果匹配位置正确。匹配运算时间如表2所示(对基准图像素数据预处理,不计运算时间)。

  表2 实时图和基准图匹配运算时间

图像大小运算时间/ms
实时较基准图由单DSP执行由DSP+ABIC执行
36×36128×1283081623
36×36150×1504645946

  从表2可看出,采用专用集成电路LS9501可大大加快图像匹配运算速度,而且编程比较简单,实现容易,实测结果令人满意的。

  本研究为国家九五预研项目高速数字信号处理机技术的一部分,已通过国家验收,并已应用于高速图像计算机中。这一研究的成功使我们看到了打破西方禁售策略的简单可行的方法。在实验中我们发现LS9501具有非常大的提高其实时性的潜力,现分析如下:

  在实验中发现,LS9501内部图像数据移位寄存器时钟和3级加法器寄存器时钟不为同一时钟,这使得卷积模块的并行效率大为降低。如果将其改进为同一时钟,那笃在图3所示单机系统结构中,对(36x36)实时图与(128x128)或(150x150)基准图图像匹配时间将分别为394ms和592ms,图像匹配速度提高约1倍(软件模拟)。另外在实验的单机系统结构中,卷积模块完全靠TMS320C30控制,其时钟输入依赖TMS320C30读写信号,而且TMS329C30对外部存储器连续时读写信号不变化[1],必须加NOP指令以使读写信号变化。这样LS9501的性能没有得到完全发挥,而且TMS320C30也不能处理其它任务,二者依赖性太大,相互制约,并行度和实时性难以得到提高。卷积模块发展为智能卷积处理器,那么结构右发展为主从式双机计算机系统结构:主机为DSP,从机为卷积处理器。这种系统结构可使DSP与卷积器的依赖 性降到最低,提高任务级并行性,也可最大限挥LS9501的性能,从而提高图像匹配的速度。在不增加单芯片实现的卷积规模条件下,开发更高速度的LS9501,同样可提高图像匹配的速度。不容质疑,提高单芯片实现的卷积规模必将较大地提高图像匹配的速度。

  由实验结构及以上分析可以预见,图像匹配最大互的专用实现方法是一个简单可行的方法,并具有很好的发展前景,完全可以开发体积小、成本低、速度与TI公司C6000系列高性能DSP的速度相比美的卷积处理器。


上一页 1 2 下一页

评论


相关推荐

技术专区

关闭