故障现象:
网管不能联机。AP的的两个NODE之间交替REBOOT,最终会导致两节点UNDEFINED状态。
可能原因:1、数据盘镜像故障
raidutil -L raid 有数据盘节点状态为Drive Failed
2、磁盘空间满导致统计故障 一般有相关的统计告警
3、。。。。
处理流程如下:
1. telnet 该网元,在cluster res 起来,但还没有来得及循环reboot时停掉进程控制的cluster res (ACS_PRC_ClusterControl);
cluster res ACS_PRC_ClusterControl_0 /off /wait
cluster res ACS_PRC_ClusterControl_1 /off /wait
检查告警 alist - 检查cluster res ,找出状态为failed的cluster res
cluster res |findstr -ive online
若没有failed 的cluster res 进行第4步;否则转入第5步;
- 检查数据盘的镜像。(对应有告警mirrored disks not redudent)
raidutil -L raid 如果有Drive Failed 的镜像盘,则进行重建,一般会持续6小时左右。 若重建失败,则需更换node
- 对于有failed 状态的cluster res , 先消除相关的告警后,再将对应的res 进行offline、online。
eg: 如果由于R盘或S盘满引起统计进程停止,则先应删除无用的文件,消除硬盘空间告警,在对统计进程进行重启
不能在不作任何相关处理的情况下,直接将failed状态的cluster res 进行人工online
cluster res ACS_PRC_ClusterControl_0 /on /wait
cluster res ACS_PRC_ClusterControl_1 /on /wait
hostname
prcstate
alist
net state
cluster node
cluster res |findstr -ive online