某公司灾难恢复规划方案

灾难恢复计划

一. 日常备份检查

1. 日常服务主机按时定期做备份,分为两类:

主机备份:主机备份应在每周,确认服务运行正常后,制定备份计划和类型,并指定备份时间应为网络最空闲时。在自动执行计划后,应确认备份是否完整,是否有错误

数据备份:数据备份应做每日备份,确定需要备份的数据库,制定每日备份和备份类型。每日,数据库管理人员应对前一日的备份,进行检查,确认备份是否成功完整。

2. 日常备份检查

日常备份检查应由网络部主管人员不定期或定期指定检查,查看备份时间是否符合备份规定,备份文件是否完整,存放是否规整。

3. 备份空间检查

日常由网络管理人员检查备份空间是否充足,如空间紧张,应提前把距离最远的备份文件,存放至指定存储介质中,网络部管理人员应对存储介质存放进行检查,查看存放空间是否达到防潮防磁,并对存储介质进行封存

二.灾难恢复小组:

组长:梁群

灾难鉴定:梁群、王剑

恢复实施人员:王剑、张建东

恢复后检查人员:梁群、王剑、张建东、赵丽娟

灾难恢复制度:

1.灾难级别划分

A类:计算机软硬件故障

发生概率:对于企业,发生可能性最大。由于设备长时间运行,升级硬件所造成。状况有(服务停止,正常业务不能办理)

B类:人为操作故障

发生概率:日常工作中员工对于本部门的资源进行更新或维护,由于不正当操纵或误操纵造成文件损坏或丢失。状况有(个别部门文件丢失,使得部门正常办公受到阻碍)

C类:资源不足引起的计划性停机

发生概率:由于操纵系统软件或硬件资源不足所造成的系统;服务宕机,造成的数据丢失或损坏。状况有(服务器无法正常提供服务,重启后无效,需要转移服务,升级维修服务器)

2.相对应级别的处置方法

当发生时。应先报告网络维护人员,由灾难鉴定小组进行灾难鉴定,确定灾难级别,上报灾难小组组长,并对灾难发生时间,解决方法,恢复时间进行记录。

2.1 发生A类灾难时,灾难鉴定人员确定灾难级别后,上报灾难恢复组组长,确定恢复方案,排除硬件原因,在主机正常启动后,检查缺失的文件或不能正常启动的服务,上报灾难组组长,并准备备份文件,进行恢复。

进行恢复后,由恢复后检查人员检查主机是否恢复正常服务,文件是否完整且可以被正常访问,检查无误后。上报灾难恢复小组组长,并对灾难恢复的过程进行记录。

2.2 发生B类灾难时,灾难发现人应及时上报网络部及灾难恢复小组组长,明确丢失的文件,确定文件丢失原因,并对丢失原因和责任人进行记录。由丢失文件部门提出书面“恢复文件申请”,由灾难鉴定确定丢失文件,在灾难恢复小组组长批准后,准备备份文件恢复。 恢复后,由丢失文件所在部门进行确认。

2.3 当发生C类灾难,由灾难坚定人员确定主机故障,并上报灾难恢复小组组长:

2.3.1 确认为主机操纵系统故障或硬件资源不足所引起宕机时,先确认该主机是否为应用服务器(如是应用服务器,应先断开该主机的网络连接),如有需要,应及时转移服务,由其他服务器代为承接业务。故障主机再进行维修。

2.3.2 如确认系统不能正常运行,但通过短时间维护(不超过2小时)可以恢复正常,报请灾难恢复小组组长,并对原因进行说明。在得到批准后,实行对主机的全面恢复(在断开主机网络连接后,回复到最近一次的正常备份状态)。在恢复后由恢复检查人员对主机进行检查,确认主机确实恢复后,再接入网络,恢复后检查人员应在48小时内对恢复后的主机密切关注,确实恢复正常后,报告灾难恢复小组组长。并对主机恢复情况留有详细记录,以备后续检查

 

第二篇:灾难恢复计划

灾难恢复计划

一、灾难的定义

灾难分为自然灾害和非自然灾害。

自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。

非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。

二、灾难恢复项目小组的制定和职能

1.管理组:统筹规划,指挥各小组按照既定计划进行执行。

2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。

3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。

4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。

5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。

6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。

7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。

8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。

各小组共同职能:
a) 负责计划的执行
b) 与其它组之间进行信息交流,监督计划的测试和执行
c) 所有或是某一个成员可能领导特定的组
d) 协调恢复过程
e) 评估灾难,执行恢复计划,联系组长
f) 监控并记录恢复的过程
三、业务恢复流程

(一)自然灾害引起的灾难恢复流程

由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。

1.数据抢救

灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。

2.损坏评估及启动应预案

灾难发生后各小组需根据情况汇报损失情况给损坏评估组,损坏评估组根据汇总信息进行消息告知披露。披露损坏信息包括:

a)公司重要生产、监视测量、办公设备

b)拥有在可以执行计划之内的关键性功能的员工

c)保存公司重要数据的介质

d)网络、通讯设备

各小组人员根据披露的损坏信息情况进行应急预案启动,如选举临时领导、使用备份服务器、备份通讯设备进行替代等。

3.业务恢复计划

业务恢复计划需要多个小组支持与配合,总体可划分为以下几个阶段:

a)IT基础设施恢复阶段:

此阶段主要的目标是将对于保存数据的基础设施、业务系统所在的主机、公司网络架构进行恢复。首先须根据损失评估小组给出的报告分析可继续利用的IT基础设施,如供电设施、交换机、服务器、防火墙等。若有损坏不可用的设备,需及时同代理商进行沟通借用或新购相应设备。此阶段由设备支持组执行。

b)系统恢复阶段:

系统恢复主要针对关键应用主机,如Rasd-server、IBM、Center-server、BJTCT。为节约时间需同时针对各个服务器系统进行快速恢复。此阶段由数据恢复组执行。

c)网络恢复阶段:

网络恢复阶段的主要针对以下几点进行:

l  关键商业应用系统的内部局域网和网络设备的支持

l  外部广域网和电信服务

l  待恢复系统和终端用户(公司同事)间的通讯

此阶段由数据恢复组同设备支持组共同执行。

d)业务平台恢复阶段:

在此阶段的恢复工作主要围绕日常工作常用的业务平台进行,常用的业务平台主要为:Winmail、Change、Doors、Synergy、OA、ERP等。平台恢复的工作分为两个部分:

l  业务系统数据恢复

l  业务系统重搭建

l  业务系统数据导入

业务系统数据恢复:

数据恢复小组首先须对业务系统的数据进行恢复,需要寻找相应的恢复设备完成此操作,目前我们主要利用磁带机和可正常工作的主机进行数据恢复工作。需要将抢救出的磁带和硬盘接连在对应设备上恢复出数据。

业务系统重搭建:

为提高业务恢复效率,数据恢复小组成员需分工协作,共同完成业务系统的重搭建工作,由于一些业务系统的特殊性,需尽快与相应平台的供应商接口人取得联系,并申请临时可用的加密狗、许可文件等。各个平台负责人需对自己管理的平台在短时间内进行重搭建。

业务系统数据导入:

数据恢复小组成员需根据导出的数据结合自己管理的业务平台进行数据导入,并测试可行性。再导入成功并可使用后及时同个小组成员负责人进行通知。

(二)非自然灾害引起的灾难恢复流程

非自然灾害引起的灾难恢复通常破坏较小,但是风险程度仍不可忽视,如电力故障导致的关键业务系统无法运行同样会给我们的公司带来一定的影响。但由于破坏程度的不同,我们将引入业务持续计划(BCP)这样一个概念。

业务持续计划是为了防止正常业务行为的中断而被建立的计划。当面对由于人为造成的故障或灾难以及由此造成的财产损和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。

RTO (Recovery Time Object)恢复时间是指EIA部门同公司签订的故障响应恢复时间,如确保在1小时内排除故障,使业务系统重新恢复工作。

RPO (Recovery Point Objective)恢复点目标,该指标规定在灾难发生后,公司所能够容忍的数据丢失量,该指标由EIA部门同公司签订。

对于RTO和RPO目标的实现,需要人力、物力的支持,因此对于高效,最小化的BCP指标,往往也会花费大量的财力资源。在执行业务持续计划的同时,由于造成的灾难和破坏性并不严重,因此可直接进入业务平台恢复阶段。

相关推荐