「SR-MPLS」- 隧道保护与检测技术

SR-MPLS 故障保护技术概览

TE 隧道故障保护有两种思路局部保护与端到端保护。SR-MPLS TE 沿用此思路,并在此基础上增强;

TI-LFA FRR

TI-LFA (Topology-Independent Loop-free Alternate) FRR 能为 Segment Routing 隧道提供链路及节点的保护。当某处链路或节点故障时,流量会快速切换到备份路径继续转发;

传统 LFA 算法局限

传统 LFA 算法依赖拓扑存在局限。如图所示 SIP 流量通过 R1 转发到达 DIP。此时 R1-R3 链路故障,R1 将流量转发给 R2。但是在 R2 感知到故障前无法形成备份路径;

传统 LFA 无法形成备份路径的本质在于分布式网络架构下,每台设备独立计算路径,在故障瞬间对于最短路径的理解没有共识;

TI-LFA 算法

TI-LFA 借助 SR 源路由规划能力,在每个节点都会计算备份路径保护故障点。当节点检测到故障时,快速切换到备份路径;

目的:为目的地址在本地计算备份路径
触发条件:主路径链路/节点故障

TI-LFA FRR 保护路径计算

TI-LFA FRR 可以同时保护链路故障和节点故障。由于节点故障的保护路径一定可以保护链路故障,所以 TI-LFA 优先计算节点保护;

更多 TI-LFA FRR 原理细节请参考 NE 系列产品文档“TI-LFA FRR”;

TI-LFA FRR 的应用场景与配置

为了实现整体路径的保护,需要在多个节点 IGP 中使能 TI-LFA FRR 局部保护;

Anycast FRR

问题描述

TI-LFA FRR 的局限:对于 SR 隧道中的指定必经节点(首节点、尾节点、路径约束节点)故障,TI-LFA 无法生成保护。如图 SR 转发路径中,对于作为必经节点的 R1、R4 和 R6,TI-LFA 无法生成保护路径;

解决方案

通过 Anycast FRR 可以实现对于指定节点的故障保护;

如图让 R4 和 R5 发布相同的 SID,这个 SID 就是 Anycast SID。此时 Anycast SID 会在 IGP 中发布,其下一跳会指向路径中最近的节点,例如 R4,那么 R4 被称为 Anycast SID 的最优节点,R5 则是备份节点;

Anycast FRR 构造一个虚拟节点发布 SID,然后采用 TI-LFA 算法计算虚拟节点的备份下一跳;
此时如果 R4 节点故障,TI-LFA 根据计算的备份路径,通过 R5 继续转发;

R4 和 R5 指向虚拟节点的链路开销为 0。虚拟节点指向 R4 和 R5 的链路开销为无穷大;

Hot-Standby

SR 的 Hot-Standby 就是通过控制器算出一条与主路径不同的备份路径,实现端到端的路径保护;

SR-MPLS Policy 由主候选路径和备候选路径形成 Hot-Standby。主、备候选路径属于一个 SR-MPLS Policy;

SR-MPLS Policy Hot-Standby 原理

SR-MPLS Policy 的多条候选路径形成 Hot-Standby 保护,如果 Segment List 发生故障,将触发其故障切换;

SR policy P1 <headend, color, endpoint>
  Candidate-path CP1 <protocol, origin, discriminator>
    Preference 200
      SID-List <SID11...SID1i>
  Candidate-path CP2 <protocol, origin, discriminator>
    Preference 100
      SID-List <SID21...SID2i>

SR-MPLS Policy 的故障感知需要依靠 BFD 或 SBFD 等检测机制;

VPN FRR

问题描述

Hot-Standby 能够保护端到端路径,但是不能解决隧道宿端 PE 设备的故障。例如本例中 PE1 会同时收到 PE2 和 PE3 发布的路由,并且优选 PE2。如果 PE2 发生故障,只能通过路由收敛来恢复业务;

传统的 TE 隧道保护技术中,一旦 PE 节点发生故障,只能通过端到端的路由收敛、LSP 收敛来恢复业务。其业务收敛时间与 MPLS VPN 内部路由的数量、承载网的跳数密切相关,VPN 路由数量越大,收敛时间越长;

解决方案

VPN FRR 利用基于 VPN 的私网路由快速切换技术。通过预先在源端 PE 中设置指向主用 PE 和备用 PE 的主备用转发路径,并结合 PE 故障快速探测,旨在解决 CE 双归 PE 的 MPLS VPN 网络中,PE 节点故障导致的端到端业务收敛时间长的问题;

对于 VPN FRR 技术,其收敛时间只取决于远端 PE 故障的检测并修改对应隧道状态的时间,由此解决了 PE 节点故障恢复时间与其承载的私网路由的数量相关的问题;

本例中从 PE1 到达 PE3 的 VPN FRR 的路径同样拥有主备路径,图片中未完全展示;

VPN FRR 故障切换示例

本例中当 TI-LFA FRR、Hot-Standby 和 VPN FRR 一起使用的时候,其故障切换保护情况如下:

注,Hot-Standy 和 VPN FRR 的故障感知都需要依赖 BFD 或 SBFD 等检测机制;

SBFD

BFD进行大量链路检测时,其状态机的协商时间会变长,不适合Segement Routing。

SBFD(Seamless Bidirectional Forwarding Detection)是BFD的一种简化机制,它简化了BFD的状态机,缩短了协商时间,提高了整个网络的灵活性,能够支撑SR隧道检测。