宽带业务快速发展,给传统电信业和IT业带来了深刻的变革。多业务、多网络的融合已经成为不可逆转的趋势。 宽带城域网作为城域网内的主要网络实体将成为3G、NGN以及其它新兴增值业务的承载平台。 3G、NGN这类实时的语音和视频应用,要求城域网提供服务质量保证和类似于传统电信技术99.999%的电信级网络可靠性要求。同时,激烈的竞争也推动运营商向客户提供类似SLA有服务质量保证的服务,网络可靠性是其中的首要也是最重要的指标。通过提高网络的可靠性,运营商可以通过提供差别化的服务,在运营商之间的竞争中占居有利的地位,进一步树立和巩固企业的品牌形象。
城域网路由器的可靠性体现在以下两个方面,一个是设备层的可靠性,另一个是网络层的可靠性。
网络可靠性是城域网路由器可靠性保障的一个重要内容,由于传统的路由器协议收敛比较慢(IGP在秒级,BGP在分钟级),不能满足承载实时业务的需求。网络可靠性也是城域网路由器新技术比较活跃的领域。
目前新出现的网络层可靠性技术主要有IP路由快速收敛、端到端LSP备份、MPLS快速重路由、平稳重启、RPRIPS等。
IP路由快速收敛
IP动态路由是最基本的网络层可靠性保障机制,是IP路由网络与生俱来的功能。IP动态路由协议负责进行网络层IP转发路径计算,在链路或者节点发生故障导致原数据转发路径中断时,路由协议对数据转发路径进行动态重新计算,虽然各种路由协议通过采用不同的机制,其响应时间有差别,但是平均水平在秒一级。对于传统IP业务这个恢复时间可以接受,但是对于承载实时业务等多业务的电信级IP网来说要求毫秒级恢复响应时间,传统IP动态路由技术和这一要求有很大差距。
在传统路由协议的基础上,进行改进可以缩短IP路由协议的故障响应时间,这些措施主要是加快路由协议的收敛。加快路由协议收敛速度可以分为链路故障检测、路由重计算、路由信息更新等几个方面考虑。通过加快链路之间Hello消息的发送频率,加快SPF计算速度和为路由更新消息设定高优先级,路由协议可以快速发现、处理故障,并且准确快速地进行路由更新,加快路由协议的收敛,通过优化IGP路由协议可以实现小于1s的收敛。
另一种加快路由协议收敛的方法是采用IGP和EGP对网络进行合理的层次规划,IGP进行域内设备的路由,EGP(BGP4)承载外部路由,两种路由之间进行有效隔离,不相互进行重分配。IGP和BGP的合理分工,形成了一个层次化的路由结构,域内和域间路由协议的收敛相互独立,互不影响,可以实现最快速度收敛。
LSP保护切换
保护切换是ITU-T采用的术语,保护切换技术对于提高MPLS网络的可用性和稳定性具有关键意义。保护切换一般对受保护LSP路由的预计算和资源的预分配,所以可以保证在LSP连接失效或者中断后可以快速重新获得网络资源。
目前技术的发展只可以支持对点到点LSP的保护切换,保护可以采用两种方式:1+1保护和1:1保护。
1+1保护使用一条专用的备份LSP作为主LSP保护,在IngressLSR处,主LSP和备份LSP桥接在一起,主LSP上的流量复制到备份LSP上同时传送到EgressLSR,EgressLSR根据故障指示参数的取值,选择接收主备LSP上的流量。
1:1保护时也使用专用的备份LSP作为主LSP的保护,但是主备LSP不同时传送相同的流量,备份LSP在主LSP工作正常的前提下可以传送其它流量,流量的保护切换裁决在IngressLSR进行。
MPLS快速重路由(FRR)
为了满足诸如像视频会议电视这一类业务的实时应用,必须对这些流量提供类似于传统SDHAPS毫秒级的LSP保护能力。
LSP保护切换技术,需要信令协议的介入,故障点到恢复点的故障指示信令传递引入了不必要的网络恢复延时。MPLS快速重路由技术可以实现在没有信令介入情况下,由故障检测点直接对故障链路流量根据预先设定的保护路径进行重定向,恢复点即为故障点。多数的快速重路由方案依赖预先建立的备份通道,当网络恢复点检测到网络故障时,它要做的工作就是简单地更新LSP交换表,使流量从故障端口的LSP切换到预先在正常端口建立的LSP内。
快速重路由的优势除了可以提高保护恢复的速度外,通过有选择的在网络薄弱环节配置保护能力,避免了在可靠网络重复保护、无谓消耗核心网络资源。MPLS快速重路由技术提供50ms内的保护切换,可以作为SDHAPS保护机制的替代。
MPLS快速重路由采用如下配置过程:
首先,在LSP的入口处即LSR1,使用一条用户命令激活MPLS保护切换功能;LSR1向LSP路径上的所有LSR发送信令,每个LSR都计算出一条旁路下一跳LSR的备份LSP,LSP快速重路由配置即完成。当LSP路径上的某个LSR检测到下游故障时,由该LSR在本地将流量切换到备份LSP内。
在IETF中有多种快速重路由的方案,主流的两种保护方式为链路保护和节点保护,其解决问题的思路和复杂度各异,目前该技术还没有形成正式的RFC.
平稳重启(Gracefulrestart)
引起控制平面重启的可能因素包括:软件升级、软件Bug或者硬件故障,无中断重启可以做到控制平面重启时,数据平面无间断转发。但是如果控制平面故障,对等路由器将重新计算路由,旁路故障路由器,数据平面的不间断转发就没有意义,而且故障路由会扩散到整个网络范围。在MPLSVPNPE路由器上如果发生这种情形,其结果是灾难性的。
控制平面平稳重启技术可以有效解决这个难题,采用该技术的路由器在控制平面发生故障时,可以通知邻近路由器继续使用原路径进行数据转发,同时重启路由器重新和邻近路由器建立路由状态,保证在重启过程中业务可用性,最小化单个设备重启对整个网络的影响。
在平稳重启的过程中路由器不保存相关的协议状态,所以引起的重启软件故障不会延续到重启后。
平稳重启是新特性,很多旧设备无法支持,所以可以在局部子网内支持该特性的设备上使用。
在网络边界,运营商边界路由器面对众多客户,而且一般都没有冗余措施,最适合使用平稳重启技术。网络核心一般都采用冗余路径进行保护,而且带业务重启容易造成路由环,所以不建议在网络核心采用平稳重启技术。