机房应急预案-详细版

机房应急预案-详细版

随着XXX信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

1.1 机房突发事件分类

  1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

  2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

1.2 应急处理人员组织机构

1.3 应急机构人员岗位职责

1、应急总指挥职责

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;

(2)提供必须的紧急响应设备;

(3)在紧急情况下全面负责紧急行动;

(4)在必要时向外界求救,例如:119、110、120等。

2、应急副总指挥职责

(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

(2)根据获得的应急信息下达命令。

3、各相关设备负责人职责

(1)负责尽快收集信息向应急总指挥汇报事故情况;

(2)负责现场临时设备抢救和对事态的控制;

(3)听从上级指挥人员的指挥。

1.4 信息与网络安全突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

4.以人为本。把保障人员以及公共利益的安全作为首要任务。

5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

   

1.5 机房应急开关机具体措施

机房各设备关闭顺序如下:

1.6 服务器及存储设备故障处理

1.6.1 排错流程

1.6.2应急处置具体措施

服务器设备损坏应急处置措施

A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用;

B、立即与设备提供商联系,请求派维修人员前来维修。

服务器软件损坏紧急处置措施

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商;

B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决;

C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤:

先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

1.6.3 服务器突发情况记录文档

机房应急预案-详细版

1.7 网络设备故障处理

1.7.1 网络设备排错流程

网络设备的排错流程

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

1.7.2 网络系统故障突发事件分级

机房应急预案-详细版

1.7.3 应急措施

黑客攻击时的紧急处置措施

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况;

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况;

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作;

D、协助信息部人员协同有关部门共同追查非法信息来源;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

病毒安全紧急处置措施

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-address sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown;

B、通知维护人员对该设备的硬盘进行数据备份;

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作;

D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘;

E、机器恢复后重新开启网络设备的相应端口;

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

广域网线路中断紧急处置措施

A、链路出现问题后,网络维护人员应立即信息部负责人报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因;

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援;

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复;

D、根据突发事件级别应及时向有关上级部门汇报。

局域网中断紧急处置措施

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报;

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备;

C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通;

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

1.7.4 网络突发事件记录文档

机房应急预案-详细版

1.8 空调设备故障处理

若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。

1.9 消防设备故障处理

一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

1.10 电源设备故障处理

热力机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:

(1)确认所有负载均已安全关机。

(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。

(4)将DC电池连接断路器切换到off的位置。

(5)将所有电池拉出到红色电池断开线以外。

(6)断开PDU上的断路器。

(7)将PDU后面总输入断路器切换到断开位置。

(8)将每个上行主电路断路器切换到断开位置。

1.11 维护小组成员

1.11.1 现场服务人员联系方式

机房应急预案-详细版

1.11.2 厂家协助服务人员联系方式

机房应急预案-详细版

 

第二篇:机房应急预案

机房应急手册

V1.1


一、前言

1.1 目的

随着集团信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是电脑部目前面临的一项重要任务。

为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

1.2 机房突发事件分类

1)   自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

2)   事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

3)   人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

1.3 应急处理人员组织机构

1.4 应急机构人员岗位职责

1、应急总指挥职责

1)   保证在任何时间,及时协调应急行动所有涉及的岗位人员;

2)   提供必须的紧急响应设备;

3)   在紧急情况下全面负责紧急行动;

4)   在必要时向外界求救,例如:119、110、120等。

2、应急小组组长职责

1)   在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

2)   根据获得的应急信息下达命令。

3、各相关设备负责人职责

1)   负责尽快收集信息向应急总指挥汇报事故情况;

2)   负责现场临时设备抢救和对事态的控制;

3)   听从上级指挥人员的指挥。

1.4 信息与网络安全突发事件处理原则

1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。

2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

4.以人为本。把保障人员以及公共利益的安全作为首要任务。

5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

1.5 机房应急开关机具体措施

机房各设备关闭顺序如下:

二、应急预案

2.1服务器及存储设备故障处理

2.1.1排错流程


2.1.2 应急处置具体措施

服务器设备损坏应急处置措施

    A、关键应用系统所在服务器设备损坏后,应立即查明原因,使用备份服务器替换损坏设备,并立即恢复应用系统正常使用;

        B、立即与设备提供商联系,请求派维修人员前来维修。

服务器软件损坏紧急处置措施

A、迅速查找原因,尝试重启系统。使用备份进行恢复。必要时联系开发商;

B、当发现服务器感染有病毒后,应立即将该机从网络上隔离出来。并启用杀病毒软件对该机进行杀毒处理,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认确实无法查杀该病毒后,应作好相关记录,并迅速联系有关产品商研究解决;

C、当因空调,电力等问题需要关闭所有服务器时,应遵循如下步骤:

先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服  务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务  器。

2.1.3 服务器突发情况记录文档

2.2 网络设备故障处理

2.2.1 网络设备排错流程

网络设备的排错流程

下面流程图是网络维护人员所应采取的排错模型,当发生网络故障时应按照此流程快速进行定位、排除故障。

2.2.2 网络系统故障突发事件分级

2.2.3 应急措施

黑客攻击时的紧急处置措施

A、当发现网页内容被篡改、Internet接入路由器有未知用户登录或通过其他方式发现有黑客正在进行攻击时,应立即向信息部相关人员通报情况;

B、在信息部人员授权下,立即备份当时的log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向信息部领导汇报情况;

C、协调相关应用部门,与信息部有关技术人员一同负责被破坏系统的恢复与重建工作;

D、协助信息部人员协同有关部门共同追查非法信息来源;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

病毒安全紧急处置措施

A、当发现计算机感染有病毒后,应立即将该机从网络上隔离出来;或从网络设备状态发现病毒爆发应采取show mac-address sh arp定位或IP查询将病毒机器所在的网络设备端口shutdown;

B、通知维护人员对该设备的硬盘进行数据备份;

C、启用杀病毒软件对该机进行杀毒处理,同时进行病毒检测软件对其他机器进行病毒扫描和清除工作;

D、如发现杀病毒软件无法清除该病毒,应立即通知用户并向及信息部负责人报告,经信息部技术人员确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘;

E、机器恢复后重新开启网络设备的相应端口;

F、认为情况极为严重,根据突发事件级别应及时向有关上级部门汇报。

广域网线路中断紧急处置措施

A、链路出现问题后,网络负责人切换至备用线路,应立即应急小组组长报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因;

B、如属我方管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援;

C、如属运营商管辖范围,立即与运营商维护部门申报故障,请求修复;

D、根据突发事件级别应及时向有关上级部门汇报。

局域网中断紧急处置措施

A、局域网中断后,网络维护人员应立即判断故障节点,查明故障原因,并向信息部领导汇报;

B、如属线路故障,更换新线路或重新安装线路;或从最近飞线至故障设备;

C、如属路由器、交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备提供商联系更换设备,并调试畅通;

D、如属路由器、交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援;

E、情况严重的,根据突发事件级别应及时向有关上级部门汇报。

2.2.4 网络突发事件记录文档

2.3空调设备故障处理

2.3.1 机房空调故障的应急处理步骤

当机房空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。

1)   首先如果有备用空调,启动备用空调;如果没有备用空调,要把邻近的空调的温度设定值调低1-2度即可。

2)   判断机房空调故障,详细记录空调状况,然后给空调维护供应商打电话,明确空调故障状况,让维护人员齐备工具维修。

2.4 消防设备故障处理

2.4.1 处理应对准则

1)   一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

2)   人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

3)   人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。

4)   119火警程序:发现火灾拨打火警电话119报警时要讲清详细地址、起火部位、着火物质、火势大小、报警人姓名电话、并派人到路口迎候消防车。

2.4.2 已发生的火灾事故的原因进行认真分析

1)事故原因不查清不放过;

2)事故责任者得不到处理不放过;

3)整改措施不落实不放过;

4)教训不吸取不放过,预防火灾事故再次发生。

2.5 电源故障处理

2.5.1 供电系统(停电)故障处理

1、准备工作

1)   停电后第一时间电话咨询供电公司询问停电原因及停电时长。

2)   电话通知应急小组组长停电状况,如果在值班过程中停电需同事共同处理由组长协调通知,在停电期间要保持通信畅通有问题及时联系。

3)   准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大 、小)等常用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。以及油机房钥匙.

4)   以上3点工作尽量在最短时间内结束,然后针对故障原因作出相应处理。

2、处理故障

1)   首先确认供电已切换至UPS,询问确认停电时长。

2)   根据停电时长,依次关闭(按照1.5)关闭服务器。

3、供电恢复

1) 如目前是UPS供电,则切换至电源供电;如已经断电,则依次按照1.5倒序,启动流程启动

2.5.2 UPS故障处理

1、预警、报警处理

1)   日常机房巡视过程中发现配电柜其中一路UPS电源失电,应立即向应急处理小组组长汇报,并在应急小组组长的指挥下采取相应措施控制并消除故障。

2)   机房环境动力监控系统报每一机柜或一组机柜PDU失电时,机房管理员(网络管理员)应迅速到达机房进行检查是否是配电柜空气开关跳闸还是UPS电源失电故障,若为UPS电源失电故障,应立即向应急处理小组组长汇报,在应急小组组长的指挥下采取相应措施控制并消除故障。

3)   信息用户报网络可某应用中断,相关专职人员应会同机房管理员检查确认是否是UPS电源失电引起,若是,立即向应急处理小组组长汇报,在应急小组组长的指挥下采取相应措施控制并消除故障。

2、现场处置

1)   当检查确认配电柜其中UPS电源失电,联系UPS管理部门,了解UPS运行状况。

2)   将失电的UPS电源分离,检查及监视设备运行情况。

3)   当检查确认UPS电源均电时,各专职人员应迅速将属管辖设备的电源切除,以防止突然来电损坏设备。

4)   及时通知UPS供应商或运维上,派遣技术人员上门维护。

三、联系人名单

3.1维护小组成员

3.1.1现场服务人员联系方式

3.1.2 厂家协助服务人员联系方式

相关推荐