摘要:本文主要介绍了在日常管理维护中遇到的EWSD交换机两侧硬盘均UNA的异常情况及解决过程、处理方法。 关键词:EWSD交换机 两侧硬盘 UNA 故障处理
我在单位主要负责EWSD交换机的运行维护,故障处理。工作十余年来,从1994年8月开通的全国首家专网六千门EWSD程控交换机到现在发展成五万余门的规模,设备第一次出现双侧硬盘均UNA的严重情况,相对来说比较重视。特认真分析,仔细研究,写成论文,以便今后更好地管理维护,保证交换机安全、可靠、稳定运行。
一、 故障现象及解决过程: 2006年7月22日,我局所属703分局突然出现AIC-0告警,即风扇告警。由于当时我离告警现场较远,只好电话通知就近的非维护人员看了一下程控机房的空调及CP113C机柜 的风扇。但未看出什么问题,空调未停,机柜风扇也转。我有些奇怪,以前遇见的风扇告警都是停电告警,通电告警自动消除。这次是?急急忙忙往告警地点赶。没想到人未到,故障继续升级恶化,具体告警内容显示如下: AYQ73/AD386C2000E/CHNCBZ1V11542527/103 06-07-22 15:27:36 8502 3086/02104 HF.ARCHIVE-35826 ** CENTRAL UNIT ALARM MMN:CP990 CP FAILURE WITH CONFIGURATION REASON: HARDWARE FAULT OF MDD DATE: 06-07-22 TIME: 15:27:35 CONFIGURATION: MDD-1 FROM ACT TO UNA PRECEDING UNIT: IOPUNI-1 END JOB 8502 表明1侧硬盘已退出服务,于是采取相应动作,试图激活该侧硬盘,但不成功。此时,0侧硬盘也出现告警,双硬盘故障产生!告警消息如下: AYQ73/AD386C2000E/CHNCBZ1V11542527/103 06-07-22 15:43:38 0790 2974/04425 MDD-0 : INOPERABLE AND THEREFORE DEACTIVATED. DOUBLE DISK FAILURE! END TEXT 0790 AYQ73/AD386C2000E/CHNCBZ1V11542527/103 06-07-22 15:43:39 8547 3086/02104 *** CENTRAL UNIT ALARM MMN:EY730 CP FAILURE WITH CONFIGURATION REASON: HARDWARE FAULT OF MDD DATE: 06-07-22 TIME: 15:43:38 CONFIGURATION: MDD-0 FROM ACT TO UNA PRECEDING UNIT: IOPUNI-0 END JOB 8547 AYQ73/AD386C2000E/CHNCBZ1V11542527/103 06-07-22 15:59:53 8588 3086/02077 *** CENTRAL UNIT ALARM MMN:CP450-0000 CP113C FAILURE WITH CONFIGURATION POWER FAILURE CONFIGURATION: IOC-1 FROM ACT TO UNA SUBSEQUENT UNITS: IOPMB-1 IOPMB-33 IOPMB-41 IOPMB-43 IOPTA-1 IOPLAU-1 IOPUNI-1 END JOB 8588
通过以上报告,可以得出结论:1侧硬盘及其上级单元IOC-1均UNA,因此决定先激活0侧硬盘,并严格按照双硬盘故障处理流程操作,命令如下:
CONFMDD:MDD=0,OST=ACT;
交换机随后提示如下消息:
AYQ73/AD386C2000E/CHNCBZ1V11542527/103 06-07-22 16:29:17 0790 2974/02110 THE ACTUAL GENERATION 11504400 WITH THE CREATION DATE 02-06-26 23:18:35 IS VALID AND COMPLETE ON THE DISK TO BE ACTIVATED. PLEASE ENTER : STOP MDDACT; (笔者注:停止激活)OR CONT MDDACT:LABEL;(笔者注:格式化MDD,并继续激活) OR CONT MDDACT; (笔者注:继续激活) END TEXT 0790 根据操作流程,决定执行第三条命令CONTMDDACT; 意思是在双侧硬盘均UNA的情况下,`用文件控制处理机去重新激活。命令执行. 接着UPDGEN; 命令接受。52秒后命令执行。 该命令为的是在硬盘上恢复一个可执行的GEN,继续系统的操作。这条命令可被用来在硬盘故障调试程序期间保存非永久性数据。 DISPJOB; 此时命令执行 DISPFILE:FILE=X; 执行 显示全部文件正常。 STATLTG:LTG=X-X; 执行 显示全部LTG为ACT或STB; 此时全部电话正常,都能打出去了。系统已从双硬盘故障中恢复,接下来要检查相应数据。 STATLOG; 显示LOG FUNCTION MESSAGE LOG STATE:LOCKED 文件 or DISK ERROR LOG FILE(S):LG:LOG1.A1 根据提示,LOG文件已关闭,需重新打开。 RSETLOG; 关闭LOG文件 LOG-FUNCTION MESSAGE: LOG-FILE(S)__READY FOR USE: LG.LOG1.A1 MASTER__LOG__FILE READY FOR USE: LG.LOG1.A0 COMMANDS OR REQUESTS NOT LOGGED
SETLOG:FILE=LOG1,SIZE=10,ERASE=Y; STATLOG; LOG-FUNCTION MESSAGE: LOG-STATE:ON LOG FILE(S):LG.LOG1.A1 LOG文件正常。然后激活IOC-1,以及MDD-1. CONFIOC:IOC=1,OST=MBL; CONFIOC:IOC=1,OST=ACT;
CONFMDD:MDD=1,OST=ACT; STATSSP; 显示全部正常。 至此,故障全部解决。
二、故障分析:
1:此次故障原因是703局停电,交换机靠蓄电池供电,几乎快放空所致。在这个过程中,风扇是一个一个往下掉电,而且是首先告警,然后是MDD 1侧和0侧。我让非维护人员看空调和风扇,那时设备已来电,但硬盘均UNA。不到现场输命令,设备不能自动恢复。还算发现的及时,否则,后果不堪设想。再拖延一段时间,那就会造成话费丢失的重大故障。这就要求我们维护人员一定要及时迅速处理故障,勿因小失大。 2.事后,我仔细看了OMT上的自动输出报告发现:其实在13:59时已有POWER FAILURE的告警自动提示。说明EWSD交换机软件系统对此早有考虑。告警很准确,很到位。是很成熟的产品。机房的技术资料中也有这类描述。平日多翻翻,积少成多,天长日久,维护水平才会不断提高。 3.程控交换机告警的同时,703局ADSL设备也同样有故障,上不了网。一般来说,它们之间互不影响。有经验的技术人员应马上怀疑到它们的共性:电源问题!
|