[交换网技术] AP循环REBOOT 故障处理 [复制链接]

liusiyuan0425

军衔等级：

新兵

发表于 2015-12-8 20:21:54 |显示全部楼层

故障现象：
网管不能联机。AP的的两个NODE之间交替REBOOT，最终会导致两节点UNDEFINED状态。
  可能原因：1、数据盘镜像故障
raidutil -L raid  有数据盘节点状态为Drive  Failed
         2、磁盘空间满导致统计故障       一般有相关的统计告警
         3、。。。。

处理流程如下：
1.       telnet 该网元，在cluster res 起来，但还没有来得及循环reboot时停掉进程控制的cluster res （ACS_PRC_ClusterControl）；
cluster res ACS_PRC_ClusterControl_0  /off  /wait
   cluster res ACS_PRC_ClusterControl_1  /off  /wait

检查告警 alist
检查cluster res ，找出状态为failed的cluster res

cluster res |findstr -ive online
若没有failed 的cluster res 进行第4步；否则转入第5步；

检查数据盘的镜像。（对应有告警mirrored disks not redudent）

raidutil -L raid 如果有Drive  Failed 的镜像盘，则进行重建，一般会持续6小时左右。若重建失败，则需更换node
对于有failed 状态的cluster res , 先消除相关的告警后，再将对应的res  进行offline、online。

   eg: 如果由于R盘或S盘满引起统计进程停止，则先应删除无用的文件，消除硬盘空间告警，在对统计进程进行重启
不能在不作任何相关处理的情况下，直接将failed状态的cluster res 进行人工online
人工重启进程控制的cluster res

cluster res ACS_PRC_ClusterControl_0  /on  /wait
cluster res ACS_PRC_ClusterControl_1  /on  /wait

检查系统状态

hostname
prcstate
alist
net state
cluster node
         cluster res |findstr -ive online

举报本楼

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-11-17 01:44 , Processed in 0.133752 second(s), 15 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册