关于全光网生存性的问题及其解决方法

——

作者：王健全顾畹仪时间：2008-01-23 来源：vlan9.com

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　由于OXC、OADM的出现，使得联网不仅能在业务层进行，光层的联网也变成现实。如何控制和管理网络就变成一个非常重要而且相当棘手的问题。由于现在所有的光器件都是电控型的，所以如何在光层之上构造一个合适的控制平台就成了问题的关键。现在国际上的四大组织作的各种草案，虽各有差异，但基本的思路都是相似的。他们总的思路都是以IP为核心，借用IP网中的流量控制（TE）、IS-IS、OSPF、RIP、RSVP等一系列协议,并在原协议的基础上进行扩展和修改来达到控制光网络的目的，而且将信令网（控制平台）与业务网相分离（最起码是逻辑上的分离）。

　　光层的联网毕竟不同于电层，而且现在要做的不仅仅是单粒度的控制和调度，而是立足于小到一个分组、TDM、ATM业务，大到光波长、光纤级的多粒度调度和分配。所以控制平台或者说是信令网的构造不仅仅是涉及到一个层面的问题，而是涉及到几个层面，既要向前兼容，又需向后兼容；既要保证光网的大容量、可平滑升级扩容以及强壮性，又要保证业务的QoS和CoS。要实现这样一个功能强大的、综合的信令网，有很多问题值得仔细研究。

故障检测和定位

　　故障检测和定位的大目标首先是为快速准确地实现保护倒换和业务的恢复，其次是为了整个网络的管理和维护。

　　由于到目前为止，光域上能够准确检测的参数只有光功率、光信噪比（OSNR）和中心波长，而像误码率、LOS、LOF这类参数只能在电域检测。由于故障检测是实现自愈的第一步，而且保护倒换和路由的恢复都有严格的时间要求，所以故障检测不仅要求准确，而且要求快速。

　　故障的定位是实现保护倒换和路由恢复的第二步，是至关重要的一步，要实现自愈，必须实现故障的快速和准确定位。因为只有确定了故障的具体位置，才能进行网络的保护和恢复以及进一步的业务配置，如果一个网络不能进行精确的故障定位，那么网络的生存性就不会得到保证。

　　但是由于故障的传递性、检测机制的不完善性以及故障检测与故障传递之间的时差的原因使得故障的定位在光网络中成为一个难点。当在一个网络中发生光纤断裂和节点掉电等收鲜保喙氐慕诘愫图觳獾憔婢?SPAN class=GramE>即情况往往是一处发生故障，网络中多处产生告警，所以必须知道全网的信息（包括配置和业务信息），才能精确地进行定位。当然这也不是不可逾越的困难，故障的定位除与节点自身的功能紧密相关外，还与信令的传送方式或者说信令网总的控制方式直接相关。一般而言，只有在知道全网的信息的情况下才能实现故障的准确定位，但是由于故障的发生是带有偶然性的，也即各节点收到的信息是突发性的，不能拿一般的马尔可夫理论进行分析，即不属于一般的M/M/X排队模型，而是属于D/M/X模型，如果每个节点（分布式控制）或者说主节点（集中式控制）需要收集所有故障信息来处理，那么不仅要一套复杂的算法，而且节点处理该信息时必须合理考虑故障传递与信息传递的时差问题，这样就增加了实现的复杂度，而且也难以满足时效性的要求。

　　解决方法：对于分布式控制的网络，采用分布式定位的方法，这种分布式的故障定位方法是与业务和链路相关的。对于集中式控制的网络，即有主控节点的网络，故障定位采用分层定位的方法，即首先由单节点承担一部分故障的简单分析，如：本节点相关告警的过滤和屏蔽，还有本节点严重告警的定位，然后再将处理结果上报主控节点，由主控节点进一步分析和处理，最终确定故障的具体位置。 {{分页}}

　　从上述分析可以看出，单节点能够定位的故障是有限的，必须将所有相关的告警收集起来进行相关性分析，才能实现故障的精确定位。这就涉及到单节点处理后的信息如何合理和正确地发布的问题。这就涉及到故障信息的编码，合理有效的编码将会使故障定位真正做到快速而又准确。当然，在故障信息发布的同时，必须辅以相应的故障信息抑制，否则，故障信息的不断发布将会使故障定位产生连带的错误。

故障信息的传送

集中式控制

　　在集中式控制下，由于所有的控制信息都是由主控节点下发的，所以检测到故障后，应该尽快地将本节点处理后的告警和定位信息送到主节点，使主控节点能够快速和准确地进行故障分析和定位。现有两种处理方式可供参考：

* 广播式方法，即一旦检测到故障，稍加处理就以广播的形式进行发送，其他非相关节点仅仅起转接该信息的作用，只有主控节点才能接收此信息。

　　这种处理方式的优点是思路简单，但是它带来的负面影响是信令网中的信息流量加大，容易产生控制流的阻塞，而且会使非主控节点的处理变得复杂化。所以广播信息的控制和管理是必不可少的，而这本身就是一个通信控制的难题，所以此方法实现起来相对困难。

* 最短路径方式发送，即每个非主控节点都有路由表，该路由表上记录了该节点到主控节点最短径以及其他可达路径的出口。通过这种方式故障信息就可以最快的方式到达主控节点。此种方式处理简单，但它要求每个节点都储存必需的路由表，而且在网络更改或者扩容时不得不更改路由表，故不可避免地要增加系统的代价。

分布式控制

　　在分布式控制下，各节点的地位是平等的，所以各节点对故障的两层过滤都由自己完成，但是如果每个节点都像集中控制方式下的主控节点，不仅不经济，而且处理的复杂度相当大，很难满足时效性的严格要求。所以其第二层处理功能应该仅仅收集相关链路或者通道的故障信息，但是这就需要本节点了解整个网络的拓扑，处理上还是比较困难，需要定制一套相当复杂的算法。

　　实现分布式控制下信令的传送，是实现其定位的关键，如何将相关的故障信息收集到本节点，以实现故障的定位，是非常复杂的。下面提出两种处理的方法：

* 广播式发送。这种方式与集中方式下的广播相比，没有任何优势，因为组播地址内要携带所有相关节点的IP地址，要求每个节点必须知道和分析全网的业务配置信息。

* 分布选路的方式，即信令网自身的选路，依据自身携带的信息来进行选路，最终目的是将所携带的故障信息送到能定位的节点。这种信息发布方式需要非常复杂的算法支持，因为每个节点都要依据收到的信息来决定是否与自己相关，即每个节点都要进行复杂的运算和查询自己的数据库信息。{{分页}}

保护倒换和路由恢复

　　一是将保护倒换和路由恢复分开考虑，即采用不同的编码、不同的机制。这是出于时间要求的考虑，保护倒换要求在50ms完成，而路由恢复要求为2s。

　　另一种思路是统一编码、不同处理的方法，即IETF的思路。这种思路的主要出发点是为迎合现在流行的IPV6协议处理模式。但是这种处理方式较复杂。

　　其实解决了第二种思路，第一种也就迎刃而解。现在来分析第二种思路的实现。

　　保护倒换分析

一般的保护方式有：

1．1＋1方式，一般用于端到端的保护——链路、通道和业务均可。

2．1:1方式，适用于端到端的保护和业务的保护。

3．M:N方式，资源共享的保护方式，通常采用通道保护方式。

4．环网APS保护方式，包括两纤单向环、两纤双向环和四纤双向环。在环网中又分复用段保护和通道共享保护，是利用环网的特殊结构来实施的一种保护方式，属于对资源的保护。

　　在光网络中采用的保护方式也不会超出这几种。但是各种不同的保护方式有由其相应的应用场合，所以不同的故障应选用不同的保护方式。由于环网具有很强的自愈能力，全光环形网络也可借用升级的环网APS协议来实现保护，但对于格形网而言情况就十分复杂，因为其某一链路或者通道从不同的观点来看属于不同的简单拓扑，选用那种保护方式与其子网标识密切相关。为了实现快速的保护倒换以及增强格形网的“强壮”性，利用图论的知识将格形网划分为几个子网（以最小环进行划分，不能归为最小环的，标识为树），将这些子网进行标识，就可以在整个格形网中对不同子网中的故障采取不同的保护方法，对环形子网中的故障借用环网的保护方法，对树形子网中的故障采用相应的1＋1或者M:N保护。这是因为格形网其实就是环网的相交相割再加上一些树形拓扑（或者孤岛）而构成的。对处于不同子网的资源和业务实施不同的保护方式，可以提高网络的生存性。

路由恢复分析

　　由于不管那种保护方式都需要预留资源，如果一个网络中全部采用保护方式的话，这势必大大降低网络资源的利用率，所以一个网络中除了采取适当的保护方式外，一般要采用业务恢复的方法来实施对业务的保护。由于恢复路由不是预留的而是按照一定的优化方法算出来的，所以它比保护方案更能合理地利用网络的资源，更能优化业务的分配。但是由于恢复路由是在故障情况下临时算出来的，所以势必造成恢复时间比保护时间长，此外它必须是在故障定位信息已经更新的情况下才能计算。故恢复时间取决于故障定位时间和算法的时间以及网络的规模。

　　与保护倒换不同，路由恢复和资源调度不仅仅要了解线路或者通道的好坏，而且需要了解各链路和通道的资源使用情况。只有这样，才能依据一定的波长路由算法进行资源的合理调配。 {{分页}}

　　集中式控制情况下有利于网络的最优化，但是由于主控节点记忆的数据量太大和处理的“事务”过多，速度不高，不适合于大型网络。分布式控制由于不是依据全网的信息来选路和恢复，所以不利于网络的最优化，但是各个节点处于同等的地位，处理相对简单，所以速度相对较快，而且适合于任何规模的网络，但是随着网络的运行，可能会导致网络的应用严重不合理。

　　根据上述分析，在一个大型网络中，笔者认为应该两种控制方式并存。对于实时性要求高的一些操作，例如资源的保护和重要业务的恢复采用分布式的控制方法，也可借用预选恢复路由的方法来实现。对于一些实时性要求不高的操作，例如业务配置、性能管理、维护等则可采用集中式控制的方法，这样有利于合理配置网络，对于一些既要求实时性，而分布式控制方法很难解决或者说解决有困难的操作，例如故障定位，则可以采用两种控制方法结合的分节控制的方法来实现，这样就可以提高网络控制和管理的灵活性，而且提高实时性和合理性。

拓扑结构的识别

　　为了在一个网络中同时支持保护倒换和路由的恢复，并且要保护和恢复协调操作，这就需要借用图论的知识将网络划分为几个子网。在这些不同拓扑的逻辑子网中来分别执行不同的保护和恢复方式。一般而言，保护是针对资源即物理层和段层的保护，而恢复是针对业务层，即仅仅针对业务的。为实现这个目的，就需要信令网具有识别拓扑结构的能力，以及能够按照一定的规则来划分不同的子网，这应该是启动保护倒换和路由恢复的依据，以及启动何种保护倒换类型的必备信息。当然这些信息不应实时运行，应该具有相对的稳定性，否则将会导致信令的交换时间过长，处理也十分复杂，更难保证保护、恢复等实时性要求高的操作。一般是设置一定时器，每隔一固定时间，查询和自动识别一次，还有就是故障触发识别，即在系统发生故障的情况下来修改拓扑结构，还有就是由网管启动识别命令来强制识别，这通常用于系统升级扩容和改造时。

拓扑识别一般有两种处理方法：

　　一是由网管配置，即规划网络时将网络拓扑按一定的算法或者按照设计者的要求分为几个子网，然后由网管配置各节点的子网标识。这种做法的前提是必须事先知道网络的物理配置。在网络升级，或者物理拓扑改变的情况下，需要重新配置。这种做法的主要好处就是简单易操作、便于管理，缺点就是实时性不强、对网络操作者的依赖性过强，也即对维护者的知识要求较高，这种方法是相对静态的，也是目前使用较多的方法。

　　第二种方法是节点自动识别，在不同的控制方式下，实现的方法和难易不同。

　　集中式控制：网络拓扑的识别工作应该交给主控节点完成。在大型网络中，这种方式的实现非常复杂，所以距离实用化还有很长一段路要走。

　　分布式控制：为了识别整个网络的拓扑，必须知道全网的信息，但分布式控制机制下的节点明显不具备这个功能，所以此功能可以交给中心网管来完成。相比于集中式控制，两者的区别是：集中式控制把网络的识别放在控制层完成，速度相对较快，而分布式控制则必须将网络的识别交由管理层完成，速度相对较慢。 {{分页}}

信令的交换

集中式控制

下行方向的信息（由主控节点发给其他非主控节点的信息）的传送和握手方式有两种：

* 一种是IETF提到的，也就是贝尔实验室现在采用的方法：并行发送、串行握手后决定动作的准则。

* 另一种是依据光网络不同于电网络的特点以及利用集中式控制的优点提出的并行发送、先接收命令、再相互握手的准则。

　　这两种方案各有优缺点：第一种方案保证了动作的正确性，即一般不会发生差错，这种方案继承了以前电域协议的先握手后倒换的思想。第二种方案是从实际情况演绎出来的一种追求时效性的方法。它的缺点是有产生差错的可能，但优点是其倒换时间非常短。

分布式控制

　　这种分布选路的方式，必须采用先握手、再动作的命令。因为此时单节点不足以知道全网的状态，而仅仅了解与其相关的一些链路、通道及节点的状况，所以如果采用先动作、再握手的规则的话，其错误概率是无法估计的。

　　在此种方式下，节点的相应命令仅仅发送给其相关的节点，其他节点在收到这些命令后，仅仅转发相应命令，源节点收到这些回应命令后才作出相应的动作，并且向其他相关节点发确认信息，其他节点收到此命令后，也做相应的动作，并回送确认信令，至此一个动作完成。