系统故障分析报告
除灰控制系统网络故障补充分析报告
一、综合分析,本次发生在除灰控制系统的网络故障主要是以下现象:
1. 网络系统两条网络线,运行中B网突然掉线,同时A网间断性的掉线(这种现象连续三天,而且都在每天下午的2点半至3点左右各发生了一次;持续最短的一次是3个小时左右,最长的一次有6个小时左右,之后都在热工检查无结果的情况下又自动恢复正常)。
2. 在第一次发生时,发生了一次双控制器故障(在热工人员赶到后处理完恢复正常)。
二、针对故障分析原因,热工所做的检查及处理工作:
1、第一次发生网络故障后,我们首先与AB的北京、山西技术服务中心进行联系和沟通,以及其他地方认识的技术人员进行了沟通。在得不到确切处理方案和原因判断的情况下,我们自己做了以下认为有可能导致网络发生故障的检查和处理:
1) 对controlnet网络中的所有接头用酒精进行了清理,以防治接头氧化导致接触不良或松动导致网络不正常。
2) 对所有终端电阻阻值进行了测量,防止终端电阻阻值下降导致网络不稳定。
3) 对同轴电缆进行阻值测量和屏蔽层检查。
4) 对网络中的光电转换器、光纤以及接线进行检查。
5) 对操作站的无用进程进行清除。
6) 检查Controlnet模块的CPU负荷率。
7) 对主控制器的网络模块进行了逐个检查。
以上检查工作中,均没有发现异常。
2、后来通过联系北京新锐公司,从8月20日下午开始,与华能新锐公司派来的技术人员经过近两天时间的检查,主要做了以下工作:
1) 对系统软件进行了测试。
2) 进一步检查系统配置是否存在不妥。
在以上检查工作中,发现和处理了以下一些隐患问题:
l 除灰网络系统是按照总线结构来设计的,共有两条网络线,互为冗余。所有的控制柜都在一条总线上悬挂,信息通过网络线与最上层的控制器(两个互为冗余)进行通讯,所有的信息在最上层的控制器进行处理(见除灰渣系统网络配置图)。
l 按照以上设计要求,其一、总线上的任何一个控制柜或分支连接线发生故障,只对本控制柜有影响,都不该影响到整个网络的运行。其二、总线中间的任何一个点,如果发生两条网线同时断或故障,都不应该影响到断点以前的控制柜运行,只影响断点以后的控制柜运行。
l 在检查和做试验中确发现,情况与以上不同。其一、总线上除了最末端的灰库#2控制柜、空压机#1控制柜、空压机#2控制柜外,其它任何一个控制柜或分支连接线断开,都影响到整个网络的运行,发生双控制器故障的现象。其二、在灰库#2控制柜以前任何地方两条网都断开,都影响到整个网络的运行,发生双控制器故障的现象。在灰库#2控制柜以后的任何地方两条网都断开,不会发生影响整个网络运行的现象。
l 以上的现象对于网络运行是一个很大隐患。在检查出这种问题后,当时新锐公司的技术人员通过与AB公司亚太地区技术服务部沟通,认为在一些隐含文件的设置上可能存在不恰当。后来通过电话指导,进行了重新处理。
l 处理完以后,我们又反复做了很多次试验:比如逐个对总线上的任何控制柜分支连接线断开,只对本站有影响,都不该影响到整个网络的运行;对总线中间的任何一个点,同时断开两条网络线,都不影响到断点以前的控制柜运行,只影响断点以后的控制柜运行。这样与网络设计原理完全吻合,达到了设计要求。
l 但是,对于曾经出现的故障现象。我们分析,与我们所处理掉的这种隐患有没有直接关系,或者说是不是这种隐患的存在,而引发的故障出现?比如:在没有进行这种隐患处理前,发生中间断点,就会出现整个网络故障。但是,这种发生故障的时间(连续三天,又恰好在每天的同一时间段),和后来都会自动恢复正常,目前还不好下结论。
三、目前遗留的工作:
通过做工作,网络安全性虽然比以前有了很大提高。但是,有必要进一步做的工作还有:
1. 原来我们想通过技术手段对同轴电缆、光纤进行测试,看是否存在隐含的故障点。但是通过联系山西远卓公司和北京的新锐公司,还有通过渠道打听,都没有这种测试手段。所以,有机会我们还得继续做这项工作。
2. 需要对控制系统报警进行完善,增加控制器故障报警及controlnet网络A、B网故障报警,及时发现故障现象做好防范措施。这项工作我们正在做。
3. 重新设置,适当加大控制器与各控制柜模块之间的信息交换速率。防止网络有瞬间断点时,不会被控制器扫描到。这项工作我们正在做。
4. 硬件因为现在检查没有问题,隐含故障点又没有技术手段可以检查出,所以,有必要对一些重要的硬件设备进行储备。
四、风险预测及采取措施:
本“PLC”控制系统,主要控制着#3、#4炉输灰管、省煤器仓泵、电除尘仓泵、除渣系统和公用系统中的灰库系统、二期空压机系统的设备;
1. 最大风险:双网络线从“#3炉除灰控制柜”前断开(最坏的现象)。目前不会再因为网络线故障而发生控制器故障。
这种情况下,等于整条网络的控制柜都失去控制器的控制,此时采取的措施有:
1) 操作员站发出controlnet网络A、B网故障报警来提示运行人员。这时请及时通知热工检修人员处理。
2) 输灰管、省煤器仓泵、电除尘仓泵、除渣系统和灰库系统、二期空压机系统的一些设备的状态信号和报警信号将会失去监视。
3) 除以下设备:灰库的气化风机出口门、仓泵的阀门和输灰管上的阀门由于是由电磁阀长带电控制的设备,在网络中断时,电磁阀会失电,相当于发出关指令;在网络恢复正常时,电磁阀又带电,电相当于发出开指令。
其余所有设备的运行指令信号,不管是网络中断或恢复过程中,DCS都将保持在故障前的状态。因为除以上电磁阀控制的阀门外,其余设备的启或停指令,都只是一个几秒钟的脉冲信号,因此不会出现误发指令的情况。就是说运行中的设备将保持运行,停运中的设备将保持停运,当时的设备状态在DCS画面被保持。任何设备也将不能在DCS画面操作。
4) 因此,最可能受影响的是当时正在运行中的仓泵,由于仓泵上的阀门会出现开或关,所以此时要求运行人员到就地检查运行中的仓泵情况,及时打到就地操作。需要仓泵运行时,也在就地操作即可。
5) 同时,为了防止意外,需要将空压机系统、灰库控制系统以及电气开关的设备切为就地控制方式运行,需要时在就地操作。由于失去状态监视,需要派人在就地加强监视一些重要信号。
2. 其它风险:
1) 双网络线从中间某个地方断开。这种情况下,只是断开点以后的控制柜失去控制器的控制,失去控制器的设备采取的措施同上面一样 ;断点前的控制的设备,不受任何影响。
2) 出现单网故障,不会影响设备运行。热工人员及时处理。
热工专业
20##-8-24
关于柳州海事局远程视频监控系统的故障分析报告20xx年10月至20xx年5月一故障基本信息二故障现象及处理过程1第一次故障故障现象…
金陵石化20xx年x月x日电力系统故障汇报一、电力系统故障过程及影响1、故障过程20xx年x月x日故障发生前,金陵分公司供电系统处…
关于柳州海事局远程视频监控系统的故障分析报告20xx年10月至20xx年5月一故障基本信息二故障现象及处理过程1第一次故障故障现象…
说明1本报告是成都科来软件安徽办事处针对xxxx的网络故障所做的分析报告因此该报告可以由xxxx的相关人员和科来安徽办的技术人员进…
网络故障排查报告XXX局:局领导您好,最近多个部门反映单位网络非常不稳定,经县信息中心及华晨电脑设备技术有限公司两天的排查,基本上…