Nexus 7000 Troubleshooting

一、故障描述

1、故障背景

N7K运行好好的,突然主备引擎切换。

2、故障现象

引擎切换(N7K1 sup1 active->standby, N7K1 sup2 standby->active)导致vPC Keepalive down。

拓扑描述:

  • N7K1超级引擎1上的MGMT和N7K2超级引擎1上的MGMT口直连,线A;

  • N7K1超级引擎2上的MGMT和N7K2超级引擎2上的MGMT口直连,线B;

  • 线A和线B作为vPC Keepalive;

吐槽下:这架构就是屎

二、故障分析

超级引擎切换告警日志"Configured from vty by admin on vsh.xxxxx"

Step1. 收集故障信息,检查设备状态

show accounting log start-time 故障发生前时间 end-time 故障发生后时间
show logging log start-time 故障发生前时间  end-time 故障发生后时间
show logging nvram last 100
show module   >>>>查看Sup1的slot号为3
Mod  Ports  Module-Type                         Model              Status
---  -----  ----------------------------------- ------------------ ----------
1    48     40 Gbps Ethernet Module             N7K               ok
2    48     40 Gbps Ethernet Module             N7K               ok
3    0      Supervisor Module                 N7K-SUP           ha-standby
4    0      Supervisor Module                 N7K-SUP           active *
9    48     40 Gbps Ethernet Module             N7K                ok
10   48     40 Gbps Ethernet Module             N7K                ok

show module internal exceptionlog > bootflash:exceptionlog1
show module internal errors > bootflash:errors1
show module internal event-history module 3 > bootflash:event-history_module1
show module internal event-history errors > bootflash:event-history_errors1
show diagnostic result module all detail > bootflash:diag1
show logging onboard internal reset-reason > bootflash:resetreason1
show module internal exceptionlog module 3 > bootflash:exceptionlogmodule1
show logging onboard module 3 boot-uptime > bootflash:bootuptime1
show logging onboard module 3 interrupt-stats > bootflash:interruptstats1
show logging onboard module 3 exception-log > bootflash:exceptionlog11
show module internal event-history module 3 > bootflash:event-historymodule1

Step2. 导出日志

copy bootflash:exceptionlog1 usb1:
copy bootflash:errors1 usb1: 
copy bootflash:event-history_module1 usb1: 
copy bootflash:event-history_errors1 usb1:
copy bootflash:diag1 usb1:
copy bootflash:resetreason1 usb1:
copy bootflash:exceptionlogmodule1 usb1:
copy bootflash:bootuptime1 usb1:
copy bootflash:interruptstats1 usb1:
copy bootflash:exceptionlog11 usb1:
copy bootflash:event-historymodule1 usb1:

Step3. 日志分析

此次引擎切换是由于内核调用问题导致的。

Step4. RMA更换超级引擎

三、故障处理

本次故障处理执行引擎更换操作。

Step1. 保存并被备份配置

copy run start vdc-all
show run

Step2. 记录设备变更前状态

show verison 
show module
show ip int brief
show logging last 100
show environment
show redundancy status
show vpc brief

Step3. 引擎更换操作

1)取出slot 3插槽中的超级引擎

2)插入RMA超级引擎进入slot 3插槽

Step4. RMA超级引擎license同步

需要更换的超级引擎,也就是RMA超级引擎需要同步现有主超级引擎中的license。

copy bootflash:xxx.lic bootflash://sup-standby/xxx.lic
dir bootflash://sup-standby/

Step5. 查看RMA超级引擎状态

show module
show redundancy status

Step6. 主备超级引擎启动项

show boot
boot kickstart bootflash:/xxxx-kickstart.bin sup-2
boot system bootflash:/xxxx.bin sup-2
show boot

Step7. 保存配置并记录设备变更后状态

copy run start vdc-all
show verison 
show module
show ip int brief
show logging last 100
show environment
show redundancy status
show vpc brief
show run 

Step8. 比对变更前后状态。