一种处理器的视频编码器平台的探讨

作者：时间：2012-04-25 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　1 硬件平台

　　1.1 ADSP-BF561处理器

　　ADSP-BF561 的推出使Analog Devices公司的Blackfin处理器系列得到了进一步的扩充，这款器件具有由两个Blackfin处理器内核构成的对称多处理结构。相比ADSP-BF533，ADSP-BF561可提供两倍的信号处理性能、两倍的片上处理器以及显着提高的数据带宽能力。ADSP-BF561 与ADSP-BF533完全代码兼容，并利用架构的动态电源管理能力而继续保持了非常低的功耗。

　　Blackfin561是Blackfin系列中的一款高性能定点DSP视频处理芯片。ADSP-BF561 集成了两个工作频率均高达756MHz的Blackfin处理器内核（ADI公司还提供了低成本的500MHz和600MHz版本）和2.6Mbytes的片上SRAM存储器。ADSP-BF561 片上存储器被分配于每个内核的专用、高速L1存储器和一个128KBytes大容量共享L2存储器之间。32位外部端口和双16通道DMA控制器提供了极高的数据带宽。ADSP-BF561 片上外设包括两个并行外设接口（均支持ITU-R 656视频格式化）和支持I2S格式的高速串行端口。ADSP-BF561 专门针对各种消费类多媒体应用进行了优化。

　　1.2 基于ADSP-BF561的视频编码器平台

　　此评估板包括1块ADSP-BF561处理器、32MBSDRAM和4MBFlash，板中的AD-V1836音频编解码器可外接4输入／6输出音频接口，而ADV7183视频解码器和ADV7171视频编码器则可外接3输入／3输出视频接口此外，该评估板还包括1个UART接口、1个USB调试接口和1个JTAG调试接口。摄像头输入的模拟视频信号经视频芯片ADV7183A转化为数字信号，此信号从Blackfin561的PPI1（并行外部接口）进入Blackfin561芯片进行压缩，压缩后的码流则经ADV7179转换后从ADSP-BF561的PPI2口输出。此系统可通过Flash加载程序，并支持串口及网络传输。编码过程中的原始图像、参考帧等数据可存储在SDRAM中。

　　2 H.264视频压缩编码算法的主要特点

　　H.264压缩算法和以太网（IP）接口，可实现1路单向数字视频、2路双向高保真音频、1～2路双向异步数据在以太网上高质量传输。视频编解码标准主要包括两个系列：一个是MPEG系列，一个是H.26X系列。其中MPEG系列标准由ISO／IEC组织制定，H.26X系列标准由ITU-T制定。

　　H.264视频压缩算法采用与H.263和MPEG-4类似的、基于块的混和编码方法，它采用帧内编码（Intra）和帧间编码（Inter）两种编码模式。与以往的编码标准相比，为了提高编码效率、压缩比和图像质量，H.264采用了以下全新的编码技术：

　　（1）H.264按功能将视频编码系统分为视频编码层（VCL，VideoCodingLayer）和网络抽象层（NAL，NetworkAbstractionLayer）两个层次。其中VCL用于完成对视频序列的高效压缩，NAL则用于规范视频数据的格式，主要提供头部信息以适合各种媒体的传输和存储。

　　（2）先进的帧内预测，它对含有较多空域细节信息的宏块采用4×4预测，而对于较平坦的区域则采用16×16的预测模式，前者有9种预测方法，后者有4种预测方法。

　　（3）帧间预测采用更多的块划分种类，标准中定义了7种不同尺寸和形状的宏块分割和子宏块分割。由于采用更小的块和自适应编码方式，故可使得预测残差的数据量减少，从而进一步降低了码率。

　　（4）1/4 采样精度运动补偿：以前的标准最多 1/2 精度运动补偿，首次 1/4 采样精度运动补偿出现在 MPEG-4 第二部分高级类部分，但 H.264/AVC 大大减少了内插处理的复杂度。

　　（5）改善“跳过”和“直接”运动推测：在以前的标准中，预测编码图像的“跳过”区不能有运动。当编码有全局运动的图像时，该限制有害。H.264/AVC 对“跳过”区的运动采用推测方法。对双预测的 B 帧图像，采用高级运动预测方法，称为“直接”运动补偿，进一步改善编码效率。

　　（6）整数变换（DCT／IDCT）。对残差图像的4×4整数变换技术，采用定点运算来代替以往DCT变换中的浮点运算。以降低编码时间，同时也更适合到硬件平台的移植。

　　（7）H.264／AVC支持两种熵编码方法，即CAVLC（基于上下文的自适应可变长编码）和CABAC（基于上下文的自适应算术编码）。其中CAVLC的抗差错能力比较高，但编码效率比CABAC低；而CABAC的编码效率高，但需要的计算量和存储容量更大。

　　（8）多参考图像运动补偿：在 MPEG-4及以前的标准中，P 帧只使用一帧，B 帧只使用两帧图像进行预测。H.264/AVC 使用高级图像选择技术，可以用以前已编码过且保留在缓冲区的大量的图像进行预测，大大提高了编码效率。

　　H.264的这些新技术使运动图像压缩技术向前迈进了一大步，它具有优于MPEG-4和H.263的压缩性能，可应用于因特网、数字视频、DVD及电视广播等高性能视频压缩领域。

　　3 H.264视频编码算法的实现

　　将H.264在DSP进行改进要经过以下3个步骤：PC机上的C算法优化、从PC机到DSP的程序移植、在DSP平台上的代码优化。

　　3.1 PC机上的C算法优化

　　根据系统要求，本设计选择了ITU的Jm8.5版本baselineprofile作为标准算法软件。ITU的参考软件JM是基于PC机设计的，故可取得较高的编码效果。将视频编解码软件移植到DSP时，应考虑到DSP系统资源，主要应考虑的因素是系统空间，需要对原始的C代码进行评估，这就需要对所移植的代码有所了解。

　　了解了算法结构以后，还需要确定在编码算法的实现过程中，运算量较大且耗时较长的部分。VC6自带的profile分析工具显示：帧内与帧间编码部分占用了整体运行时间的60％以上。其中ME（MoveEstimation，运动估计）又占用了其中较多的时间。

　　（1）大幅删减不必要的文件和函数

　　由于选用了baseline和单一参考帧，因此，很多文件和函数都可以删减，包括有关B帧、SI片、SP片和数据分割、分层编码、权值预测模式、CABAC编码模式等不支持特性的冗余程序代码，此外，还可以删除top_pic、bottom_pic等与场有关的全局变量与局部变量、分层编码、多slice分割以及FMO、与场编码／帧场自适应编码／宏块自适应编码有关的预测、参考帧排序、输入输出以及解码器缓存操作等；也可以删除随机帧内宏块刷新模式和权值预测模式等相关的冗余代码，同时删除rtp.c；sei.c中包含一些辅助编码信息（并不编入码流中），如果不用，也可以删除leaky_bucket.c用于计算泄漏缓存器的参数。

　　（2）配置函数的改写

　　由于JM的系统参数配置是通过读取encoder.cfg文件来实现的，故可将参数配置由读取文件改为通过初始化集中赋值函数来实现，这样既减少了代码量，又减少了对有限内存空间的占用和读取时间，提高了编码器整体的编码速度。

　　（3）去除冗余的打印信息

　　为了调试与算法改进的方便，JM保留了大量的打印信息。为了提高编码速度，减少存储空间消耗，这些信息完全可以删掉。如果lor.dat和stat.dat仅需在PC机上调试时使用，也没必要移植到DSP平台上，跟这部分相关的代码完全可以去除。但是，调试时所需的基本信息（如码率、信噪比、编码序列等）则应保留参考。

　　通过调整可使得代码的结构、容量更加精简，从而为接下来在DSP上的移植做好准备。

　　3.2 从PC机到DSP的程序移植

　　要将PC端精简的程序移植到ADSP-BF561的开发环境VisualDSP下，以使其能够初步运行，所需考虑的主要是语法规则和内存分配等问题。

　　（1）除去所有编译环境不支持的函数

　　（2）添加与硬件相关的代码

　　（3）配置LDF文件

　　（4）Malloc问题的解决

　　4 DSP平台上的代码优化

　　在VisualDSP开发环境下对代码进行优化的主要方法有C语言级优化和汇编级优化。

　　4.1 C语言级优化

　　通过VC6的profile分析工具发现：移植与优化的重点应在运动估计部分。DS算法可采用两种搜索模板，分别是有9个检索点的大模板LD-SP和有5个检索点的小模板SDSP（SmallDiamondSearchPattern）。搜索时，先用大模板计算，当最小块误差SAD点出现在中心点处时，再将大模板LDSP换为SDSP进行匹配运算，这时，5个点中具有最小SAD者若为中心点，则该点即为最优匹配点，然后结束

新闻中心

一种处理器的视频编码器平台的探讨

评论

相关推荐

技术专区