vPC故障恢复

一、vPC故障场景

vPC存在的故障点较多,使用vPC的网络需要全面考虑vPC故障后的应急恢复和备用方案。下面讨论了一些故障场景:

  • Member Port故障:vPC防环机制失效,流量全从Peer Link经由另一个vPC Peer转发,为了防止Peer Link过载,要求Peer Link链路必须是10Gbps。

  • Keepalive Link故障:不影响业务流量转发,但是需要尽快处理,防止Peer Link也down后导致脑裂。

  • Peer Link故障:Keepalive Link正常通信

    • Peer Link恢复<3s,Secondary不执行任何动作;

    • 3s<Peer Link恢复<8s,判断为线路断开,Secondary执行动作:suspend所有Member Port和SVI,以防止脑裂。流量均从Primary走,如果Secondary下挂non-vpc接口,那么就会造成流量黑洞。

  • PKL先故障,PL后故障:

    • PKL和PL同时down:未知的流量转发行为。

    • Primary Switch故障:Peer Link和Keepalive Link同时down,Secondary Switch会在等待超出3个Keepalive times后接替成为Operational Primary,no shutdown所有的Member Ports和SVIs,负责流量转发(需要开启Auto-Recovery)。

二、组合故障场景的解决方案

1、Object Tracking

Object Tracking用于当Peer Link和Uplink位于同一块线卡上,如果该线卡down,那么接入交换机上来的流量将被丢弃。Peer Link down,Keepalive检查后Secondary shutdown所有Member Ports和SVIs,流量只能从Primary转发,但是Primary的Uplink故障导致流量黑洞(南北向流量瘫痪)。

Object Tracking通过定义对象,并将对象关联到监控组中,执行实时监控。

2、Auto-Recovery

1)Auto-Recovery Feature 1

当Peer Link先故障,Secondary的Member Ports和SVIs全部被suspend,流量全部走Primary。随后Keepalive Link也故障,出现这种情况下思科认为是Primary整机故障,针对这种故障场景提出了Auto-Recovery特性来快速恢复流量转发。

Auto-Recovery特性1:Secondary等待连续的3 * Keepalive time,超时后将Secondary的所有suspend的Member Ports和SVIs启用,后续流量由Secondary转发。

2)Auto-Recovery Feature 2

当数据中心供电出现故障或者Primary和Secondary被意外断电恢复后,出现一台up,一台down的情况。针对这种故障场景提出了Auto-Recovery特性来快速恢复流量转发。

Auto-Recovery特性2:vPC Peer等待240s后,如果仍收不到对方的keepalive,则强制起vPC,执行流量转发。