Troubleshooting

一、故障概述

1、故障背景

某客户机房的一台Cisco ASR某块板卡报出内存异常告警。

2、故障现象

系统报板卡内存溢出错误。

二、故障分析

当设备出现硬件故障时,应当排查当前设备的硬件状态,并且查阅官方故障手册。查阅官方故障手册后发现往往是内存泄露导致的内存异常告警,需要插拔板卡使其恢复,插拔板卡前需要停用板卡,插拔板卡后需要启用板卡。

三、故障处理

故障处理的标准流程:

  1. 进入机房后,根据提供的设备信息(包括设备型号、设备SN、设备安装位置、故障板卡slot、故障板卡SN)前往设备所在机柜。

  2. 确认所在机柜后,获取客户授权,将Console插入设备,输入show inventory确认SN和提供的信息完全一致。

  3. 确认故障板卡slot和故障板卡SN。

  4. shutdown该板卡上的所有接口,并停用板卡。

  5. 携带螺丝刀对板卡螺丝进行卸载,并拔插板卡。

  6. 启用板卡,并no shutdown该板卡上的所有接口。

假定板卡上存在G1/0/1 - G1/0/8共8个接口,并且这8个接口均在使用,板卡slot编号为2。实际SecureCRT的操作内容如下:

ASR1#show inventory
NAME: "Chassis",  DESCR: "ASR-Chassis"      
PID: ASR          ,  VID: XX ,  SN: AAAAAAAA          
NAME: "Slot 2",  DESCR: "Line Module"            
PID: ASR-XX       ,  VID: XX ,   SN: BBBBBBBB
          
ASR1#conf t
ASR1(config)#int range g1/0/1-1/0/8
ASR1(config-if)#shutdown

[确认接口已经shutdown]
ASR1(config)#do show ip int b

[停用slot 2板卡]
ASR1(config)#hw-module slot 2 stop

[确认slot 2板卡已经停用]
ASR1(config)#show platform
ASR1(config)#show run | in hw-module

[执行板卡拔插]
[启用slot 2板卡]
ASR1(config)#hw-module slot 2 start

[确认slot 2板卡已经启用]
ASR1(config)#show platform
Chassis type: ASR

Slot   Type       State       Insert time(ago)
2      ASR-XX    booting        00:00:40
<输出省略>

ASR1(config)#show platform
Chassis type: ASR

Slot   Type       State       Insert time(ago)
2      ASR-XX    ok,active      00:00:40
<输出省略>
ASR1(config)#show run | in hw-module
[no shutdown接口]
ASR1(config)#int range g1/0/1-1/0/8
ASR1(config-if)#no shutdown
[确认接口已经shutdown]
ASR1(config)#do show ip int b
<输出省略>

执行完成后,观察5-10分钟后,如果没有跳出告警,则处理完成。