基于关键帧提取技术的网络视频监控系统

作者：时间：2016-09-12 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

Microsoft公司的Windows Media的核心是ASF(Advanced Stream Format)。微软将ASF 定义为同步媒体的统一容器文件格式。ASF是一种数据格式，音频、视频、图像以及控制命令脚本等多媒体信息通过这种格式，以网络数据包的形式传输，实现流式多媒体内容发布。

ASF最大优点就是体积小，因此适合网络传输，使用微软公司的最新媒体播放器可以直接播放该格式的文件。用户可以将图形、声音和动画数据组合成一个ASF格式的文件，当然也可以将其他格式的视频和音频转换为ASF格式，而且用户还可以通过声卡和视频捕获卡将诸如麦克风、录像机等等外设的数据保存为ASF格式

ASF具有可扩展的媒体类型，ASF文件允许制作者很容易地定义新的媒体类型。ASF格式提供了非常有效的灵活地定义符合ASF文件格式定义的新的媒体流类型。任一存储的媒体流逻辑上都是独立于其他媒体流的，除非在文件头部分明显地定义了其与另一媒体流的关系。

ASF是设计用来表示可伸缩的媒体类型的带宽之间的依赖关系。ASF存储各个带宽就像一个单独的媒体流。媒体流之间的依赖关系存储在文件头部分，为客户机以一个独立于压缩的方式解释可伸缩的选项提供了丰富的信息流的优先级，现代的多媒体传输系统能够动态地调整以适应网络资源紧张的情况如带宽不足。多媒体内容的制作者要能够根据流的优先级表达他们的参考信息，如最低保证音频流的传输。随着可伸缩媒体类型的出现，流的优先级的安排变得复杂起来，因为在制作的时候很难决定各媒体流的顺序。

ASF设计为支持多语言。媒体流能够可选地指示所含媒体的语言。这个功能常用于音频和文本流。一个多语言ASF文件指的是包含不同语言版本的同一内容的一系列媒体流，其允许客户机在播放的过程中选择最合适的版本。

ASF提供可继续扩展的目录信息的功能，该功能的扩展性和灵活性都非常好。所有的目录信息都以无格式编码的形式存储在文件头部分，并且支持多语言，如果需要，目录信息既可预先定义如作者和标题，也可以是制作者自定义。目录信息功能既可以用于整个文件也可以用于单个媒体流。

ASF文件主要有三种数据对象组成Header Object，Data Object，Index Object。Header Object包括ASF文件的主要信息，必须位于文件首部。Data Object包含数据信息，紧跟在Header Object之后，Index Object是非必须，提供跳跃索引，位于文件结尾。RTSP协议中，ASF的Header Object用Base64编码加密以后放在SDP(Session Description Protocol)数据包中。

在系统中，我们采用了移植在eBox-4300上的WinCE作为系统的嵌入式操作系统，为了解码器的工作效率和移植方便，我们采用ASF流媒体文件格式。根据搭建的基于RTSP协议的流媒体服务器，可以校验在网络中截取到数据包的特定协议字段，如果应用层协议有RTSP的协议字段，就将数据包取出，按协议进行对包的卸载，提取出ASF文件，再将ASF文件按序列传输到下一处理单元进行视频解码，并提取出关键帧。

2.网络视频关键帧提取

视频数据是分层结构，结构粒度从上到下逐渐减小。最顶层是粒度最大的视频，即一段视频流。最底层是粒度最小的帧，即单个的视频帧图像，对帧图像的处理可以采用图像特征提取技术，提取诸如颜色、纹理、形状等静态特征或空间运动的动态特征。镜头是一组时间上连续的帧序列，它代表一个场景中在时间上和空间上连续的动作，对应着摄像机的一次记录起停操作，也称为剪裁或拍摄。镜头是视频数据的最小单元，视频检索的结果就是获得符合条件的若干镜头。场景是一组语义上相关联及在时间上相邻的镜头的集合。

图3 视频层次结构示意图

关键帧是反映一组镜头中主要信息内容的一帧或若干帧图像，可以简洁地表达镜头内容。因为每个镜头都是在同一场景下拍摄的，同一个镜头中的各帧图像有相当大的重复信息。考虑到存储容量和处理效率的因素，仅需要存储镜头关键帧，可达到降低系统存储容量和减少处理器冗余工作的效果。其次，从关键帧的匹配效率考虑，用关键帧来代表镜头，作用类似于入侵检测系统中的匹配规则，这样对网络视频流可用图像匹配技术进行处理。

针对关键帧的特点，选取时有两个基本要求:第一，所选帧必须能够反映镜头中的主要事件，描述应尽可能准确完全，所以一般采用保守原则，宁可错选，也不能少提取;第二，为了减少系统存储设备，提高处理数据包的效率，数据处理量应尽量小，计算不宜过于复杂，因此关键帧的抽取应尽量少而精确。

早期的提取关键帧的尝试主要是采用颜色特征。一个简单的提取关键帧的想法是选择镜头片段的第一帧作为关键帧。当然这样提取的关键帧是很不准确的。在基于镜头的方法中，比较经典的有帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值，然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧。直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选择与该平均直方图最接近的帧作为关键帧。这些方法的优点是计算比较简单，所选取的帧具有平均代表意义。缺点是只从一个镜头中选取一个关键帧，无法处理运动强度较高的镜头。一般说来，从镜头中选取一帧或固定数目的关键帧的方法并不是很好，因为当处理变化很少的镜头时，这样选取的关键帧过多，而对于运动较多的镜头，用一两个关键帧又无法充分描述其内容。所以有人提出了基于内容分析的方法。

综合前人的研究成果，我们在本系统采用渐变控制的方法。首先选取每个镜头的第一帧作为关键帧，同时作为其他候选关键帧的参考帧，将后续每帧和参考帧比较，当其差别大于预定的阀值时，即将当前帧作为新的关键帧，同时将此帧作为新的参考帧。

3. 视频关键帧匹配

常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征等。

颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征，此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感，所以颜色特征不能很好地捕捉图像中对象的局部特征。