基于H.323 高性能MCU的设计与实现

作者：时间：2017-06-04 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

0 引言

本文引用地址：https://www.eepw.com.cn/article/201706/348298.htm

随着计算机的硬件, 特别是 CPU 主频的不断提升, 基于软件的音、视频编码效率也越来越高, 因此考虑到成本与各方面的因素, 软件 MCU 必然成为以后的主流方向。但现今大多的 MCU 都是软硬件相结合, 纯软件的MCU 很少且效率不高。当前 H.323 视频会议系统大都是以 Open h323 协议库为基础开发的视频和语音传输系统软件。 Openh323 是由澳大利亚 Equivalence PtyLtd。公司组织开发的, 能实现基本的 H.32 3 协议框架, 在Openh323V4 中, 基于视频缓存池的 MCU 最多只能处理合成 4 路终端, 不能适应现今市场发展的需要, 因此重新设计 MCU 的架构, 便成为研发软件 MCU 的关键。

1 源MCU 的缺陷和不足

( 1) OpenH 3 23 中源 MCU 只能形成不超过 4 个终端画面的图像。其中, 4 *1 为 CIF 格式 ( 35 2 * 28 8) ;1 * 1 为QCIF 格式( 176* 144) , 因此视频混合存在两种不同方式, 包括 QCIF 格式源图像混合成CIF格式图像以及 CIF格式源图像混合成 CIF 格式图像, 如图 1所示。

图 1 传统MCU 图像合成

当源图像为QCIF格式时, 源图像大小正好是混合后图像大小的1/4, 这时可以将源图像整幅地拷贝到混合图像的相应位置; 当源图像为 CIF 格式时, 源图像与混合后图像的大小一样, 因此源图像 3/ 4 的像素必须被丢掉, 采用的方法是: 对源图像在水平方向进行隔点采样, 在垂直方向进行隔行采样。这样处理之后, 源图像大小也正好是混合后图像大小的 1/ 4 , 虽然图像的分辨率已经下降, 但是保持了源图像画面的完整性; 如果将MCU 变成可容纳 16 个终端的显示画面, 在将 QCIF 源图像转换为 CIF 的合成图像过程中, 只能将源图像的采样点按倍数减少。也就是将 CIF 格式等分为16 份, 相当于用 88 * 7 2 的像素点去存储 176 *144 QCIF 图像, 合成图像显示的像素点只有源图像的1/ 4; 如果将 MCU 可容纳的终端数目扩大为 32, 甚至更多时, 图像的清晰度将大打折扣。

( 2) 传统软件 MCU 的架构是从硬件 MCU 继承过来的, MCU 包括 MC 和 MP 部分。MC 部分对终端进行连接控制以及逻辑通道的管理; MP 部分对音频进行混合, 视频进行合成。传统 MCU 的设计如图 2 所示, 这种架构适用于硬件 MCU ; 但对用软件实现的 MCU 并不太适合。用软件实现的 MCU 的编解码都是通过 CPU 来运算的, 这样必然增加 CPU 的运算负荷。例如: 要编码一路 30 f/ s 的 CIF ( 352 * 288 ) 图像, 大概编码后的字节数为 30 * 3 52 * 28 8 * 2 = 6 MB, CPU 要处理如此大的视频数据量, 经测试, P4- 2.6 G 的 CPU 在这种架构下, 最多支持 5 路终端, 如超过 5 路, CPU 运算负荷过大, 其资源基本耗尽, 图像合成的效果严重下降。因此, 要实现高性能的 MCU , 必须把 MCU 对多路音、视频编码的大数据量处理的工作环节转移到各个终端上, 让终端对相应的音、视频编码进行处理, 而 MCU 只对各路的音视频流进行存储转发, 这样才能减轻MCU 的负荷, 从而提高系统的整体效率。

图 2 传统 M C U 设计图

2 帧缓冲映射的软交换模式的 MCU 的设计

综上所述, 在此提出采用基于帧缓冲映射软交换的 MCU 系统设计模式, 所谓的软交换模式就是仿照交换机的模式, 不对音、视频流进行编解码的处理, 只对数据进行转发与控制。该MCU 也包括 MC 与 MP。基于软交换的 MP ,通过帧缓冲映射算法, 查找终端对应的缓冲区, 然后到把接收到的音、视频流存放到该缓冲区里面, 通过 MC控制, 把音、视频数据流转发到终端。

2. 1 M C 部分总体设计思想

MC 部分的设计主要包括会议组管理、会议 RTP流转发管理。
( 1) 会议管理。该系统只默认一组会议, 且默认的会议房间为/ r oom1010 。对一组会议来说, 主要管理会议的成员信息, 处理与会者的加入与退出等。为了实现这些功能, 建立一个会议组类、成员信息类、成员状态类、成员身份类和成员视频缓冲类。会议组类主要记录终端所选的会议 ID; 成员信息类主要记录终端的 To- ken , IP 地址等信息; 成员类状态主要记录成员是否在线; 成员身份类可以确定是主席, 还是听众; 成员视频缓冲类主要是存放在线各个终端的 RTP 包, 一个缓冲类里面可以存在多个缓冲区。MC 首先通过设定 TCP 特定的端口, 并在端口上建立一个 TCP 监听线程, 终端通过这个端口与 MCU 进行 TCP 连接, 并由 MC 建立一个H.225 呼叫线程, 用于监听 H.22 5 呼叫信令, 通过这个 H.225 通道, 终端把自己的会议组 ID, IP, Token 等身份认证注册到 MC。图 3 为 MC 的会议管理系统框图。

图 3 MC 会议管理系统框图

( 2) 会议 RTP 流转发管理。MCU 对登陆终端进行注册后, MC 建立一个 H. 245 控制信令线程, 并与该终端进行连接控制, 通过 H.245 控制信令与 MC 进行呼叫、信令处理与能力协商、主从决定; 然后建立音、视频的接收逻辑通道, 通过 RTP 接收类开始接收终端发送的 RTP 帧, 把 RT P 帧保存到分配给该终端缓存区里。MC 为已经进行了呼叫连接的终端分配了一一对应的视频缓冲接收区, 该缓冲区是一个分配在堆里面的数据结构, 例如: 在终端 A 的在线人员列表上, 可以看到登陆注册到 MCU 的人员名单; 通过对终端的人员名单的选择, 例如选择 B, 那么终端 A 可以要求 MC 转发终端 B 的音、视频, 当MC 收到终端 A 提交的要求转发终端 B 的信息后, 在MC 的 A 终端缓冲池里面, 为终端 B 新建一个缓冲区, 通过 MP 对终端 B 的 Token 的帧缓冲映射查找到终端 B 的音视频缓冲池, 并在终端 A 与终端 B 之间建立一条逻辑通道, 用于向终端 A 传输终端 B 的 RTP 包, 当 MC 的终端 A 缓冲类接收到终端 B 的 RTP 包后, 把 RTP 包拷贝到原来的接收缓冲区里; 然后同样把终端 B 的惟一 Token 通过哈希函数映射到这个缓冲区上。
图 4 为 MC 的 RTP 管理系统框图。MC 的软交换模式如图 5 所示。

图 4 MC 的RTP 管理系统框图

图 5 基于软交换的 MCU

2. 2 MP 部分总体设计思想

基于软交换的 MP, 通过帧缓冲映射算法查找终端对应的缓冲区, 然后把接收到的音、视频流存放到该缓冲区里面, 通过 M C 的控制, 把音、视频数据流转发到终端。由于 MCU 需要处理大量的实时 RTP 包, 效率成为了最主要的问题。因此如何从缓冲区里面快速搜索相应的数据包是 M P 能否快速处理数据的关键。考虑到 M P 要处理不同的终端, 不同的终端对应不同的缓冲区, 所以采用哈希函数映射法, 它将任意长度的二进制值映射为固定长度的较小二进制值, 并把这个哈希表存放到相应的内存区, 以便多次的查找, 这样通过这个较小的二进制值就可以以非常快的速度找到比较大的数值。因此把视频缓冲区的首地址存放到一个哈希表里面, 并通过这个哈希表把终端的Token 映射于这个缓冲区, 这样通过终端的惟一Token 便可以迅速找到其对应的缓冲区。
实现 MP 部分帧缓冲映射算法的具体设计步骤是: 首先 MCU 把登陆的在线终端 Token ( 终端的惟一标识) 与会议 ID 默认为 room101, 通过哈希函数, 映射到一个缓冲区, 通过终端的 Tok en 和会议 ID, 就可以直接找到本终端的缓冲区, 当 MP 收到终端的 RTP 包后, 通过 RTP 包的边界分析, 把多个 RTP 合成一个数据帧, 然后把数据帧放到相应的终端缓冲区里面。帧缓冲映射的查找如图 6 所示。假设当终端 A 要求转发终端 B 的音、视频数据流时, M P 通过哈希函数找到相应终端 B 的缓冲区域, 然后把该缓冲区的数据读出到数据帧里面, 最后通过 RTP 包进行发送到终端 A , 而终端 A 在接收到 MCU 发送的终端 B 的音视频数据压缩包后, 再对其进行音视频进行解码。

图 6 帧缓冲映射查找图

2. 3 MCU 系统实现

根据以上的设计思想, 得出如图 7 所示的 MCU 系统流程图。

图 7 MCU 系统流程图

2. 4 测试结果与结论

通过重新设计 MCU 的 MC 和 MP 后, MCU 的性能有了较大的提高。从性能方面进行测试, 由于传统的 MCU 在 MC 上进行编解码, 只能容纳4 路音、视频终端, 而通过修改的 MCU , MC 没有进行编解码, 只对音、视频进行存储转发, 因此在 9 路音、视频的情况下, 系统的 CPU 只占有 5% 。从效率、质量方面进行比较, 由于传统的 MCU 进行了 4 路编解码, 返回到终端的数据包延迟比较大, 而修改过的 M CU 没有进行到编解码, 因此数据包的延时很小。传统的 MCU 在 MC 里面进行图像的混合, 图像的分辨率变为原来的 1/ 4, 因此图像质量有较大的下降, 而基于软交换的 MCU 保持了原来图像的分辨率, 因此图像质量较好。从视频的帧数来比较, 传统的 M CU 架构不能达到15 f/ s, 而基于软交换的 MCU 能达到 30 f / s 。由于基于软交换的 MCU 的视频传输的是原来图像的分辨率, 因此传输率比传统的 MCU 要高, 但可以通过在终端采用传输率较低的编码器来降低传输率。表 1 为 M CU 改进前与改进后的对比。

表1 MCU 改进前与改进后的对比数据