灾难恢复计划

损失减少 企业灾难恢复计划七步曲

正如现实生活中其它事物的不可预料性一样,企业很难预先知道其网络、数据中心运作过程中何时会受到威胁。

但减轻灾难的后果并不是一个轻松的过程。下面笔者给出可以帮助企业提供实用指南并实现高效的业务连续性和灾难恢复计划的七个步骤:

第一步:承认灾难的可能性

业务连续性及灾难恢复的第一步是承认自己的单位会碰到可以损害企业发展的现实性威胁。如果企业没有在一个高级的层次上采取这一步,其它的步骤就免谈。

第二步:列表并分类企业面临的威胁

企业及其社会环境的性质能够影响一个单位所面临的威胁类型。在列示了威胁之后,单位应当根据这些威胁对不同系统的可能影响对其分类。应当在灾难的响应成本和可容忍的“宕机时间”之间实现平衡,可容忍的“宕机时间”越少,则企业就需要越多的成本来创建恰当的响应。比如,一些系统必须在几分钟或几秒内实现功能恢复,还有一些系统可容忍的“宕机时间”为几小时,还有其它系统即使“宕机时间”多达几天也不会产生严重的后果。

第三步:概要描述单位的业务连续性和灾难恢复技术的基础结构

业务连续性和灾难恢复技术基础结构的关键技术要素由以下几部分组成:关键数据中心、一个可以备份主要数据中心资源的远程站点、高带宽的网络连接等部分组成。在整个数据中心,业务连续性和灾难恢复的最佳策略都要遵循所有要素成分都保持冗余性的观点。在生产性和备份数据设施中都应当运行多台主机和服务器。如果一个生产性系统的一个组件碰到了一个问题,此系统组件就立即将其功能转移给本地的备份系统,这可以作为对付灾难的第一道防线。

在业务连续性和灾难恢复策略中,最关键的要素之一就是电源。根据调查,电力故障是最为常见的也是可预防的中断性故障。

不管企业的网络带宽多么大,如果一个粗心大意的施工人员偶然弄断了光纤,其作用也就寿终正寝了。网络的连接不但要足够,还要在一个更宽广的WAN

技术范围内遵循不同的途径,避免业务限于停顿。

第四步:清查单位的IT资产

一旦单位已经草拟了其业务连续性和灾难恢复基础结构的拓扑,下一步就是要制定IT资产的一个精确而详细的目录。这就使得单位能够理解需要保护的资源和业务过程。

现在有不少业务管理工具有助于制定和维护IT资源的精确目录。这些工具的厂商都提供了一些依靠软件代理来优化IT基础结构的工具模块,并可将硬件和软件资产的细节及其配置参数存储到配置管理数据库中(CMDB)。

第五步:设置服务水平期望并定义意外事故策略

配置管理数据库中(CMDB)不但存储着单位软件和硬件资产的细节信息,还包含着服务水平的约定要求信息,这些约定要求可以定义正常运行时间及这些资源的恢复参数。回想前面的第二步,高级管理部门对服务水平期望作出要求是很重要的,因为这些能够决定在某次故障中的5分钟内或5小时之内某种特定的资产是否必须启动和运行。这种决定可以直接影响高级管理部门日后会寻求支持的业务连续性和灾难恢复的成本支出。

根据对IT资产及配置和服务水平约定的清晰理解,单位就可以定义意外事故的应对策略。这些策略必须得到主管人员的支持,因而需要将IT资产的性能直接与企业需求联系起来。为了形成这种重要的联系,单位需要执行业务影响分析来充实系统需求、过程、系统交互关系的细节。主管人员必须理解系统瘫痪的后果,以便于支持意外事故的应对策略。

第六步:制定一个业务连续性和灾难恢复的计划

意外事故的应对计划应当直接根据意外事故的应对策略,详细表述不同部门和个人的角色和责任,以保持技术系统的可用性,并阐明紧急情况下恢复IT 系统的过程。意外事故的应对计划的关键元素还包括资源需求、培训需要、培训练习和测试的频率、维护时间表、数据库备份的时间表等。

意外事故的应对计划的阶段包括以下几个方面,一是灾难降临时的通知过程,二是应急团队动员后的恢复过程,三是回归正常运作过程。

第七步:测试业务连续性和灾难恢复计划

在定制了正式的策略和过程之后,最为重要然而却最容易被忽略的一个方面是灾难恢复计划。企业必须从一开始就测试其计划的完整性和有效性,然后再在运作过程中重新测试,以确保对IT基础结构和业务过程的日后改变不会产生策略改变的需要。

此外,单位应当创建测试平台,以精确地反映日常的业务条件,以使演练可以模拟真实的条件。

在当今复杂的条件下,要让企业防御每一种灾难事故确实有点儿困难。但是,在无法预料的事情发生后,如果企业采用了恰当的技术、清晰的服务水平期望、实用的恢复策略,再通过灾难恢复计划和严格的测试方法,单位就可以将灾难对业务的影响降至最低。

企业业务连续性和灾难恢复规划实施

企业部署了全面的灾难恢复规划,而不到10%的中小企业拥有危机管理、应急措施、业务重组和业务恢复计划。

对于中小企业来说,部署灾难恢复计划是十分重要的。根据Gartner调查显示,五分之二的企业在五年内都经历过至少一次严重灾难。此外,灾难的发生频率比我们想象中的还要高,因为大约80%的应用程序停工是人为的或者进程出错造成的,而不是因为灾难或者技术故障。

设置一个停机时间限制

当我们在部署灾难恢复计划时,最开始的目标应该是确定恢复点目标和恢复时间目标。灾难恢复点目标(RPO)指明了可以允许的数据丢失范围,而恢复时间目标(RTO)则是应用程序可以允许的停工时间范围,即根据可承受的最长停电时间来确定。

如果灾难真的发生了,那么你的公司可以承受多长时间呢?一个小时?一天?还是一个星期?那些需要立即恢复运行的公司必须投入更多的资金来进行灾难恢复部署,而那些几天内仍然可以继续运行的公司则可以投入较少的资金。同样来说,较高的灾难恢复点目标相对来说更加昂贵,但是中小企业必须权衡预防性支出与重要数据丢失带来的潜在高额费用之间的关系。认真确定灾难恢复点

目标和恢复时间目标能够帮助你合理分配资源,而不会浪费成本。

如果你的公司对于确定灾难恢复点目标和恢复时间目标,那么就可以使用业务影响分析(BIA)。业务影响分析方法依据的基本假设条件就是,公司的每一个因素都依赖于任何其他因素的持续运行,但是有些因素比其他因素要更加重要。业务影响分析优先考虑了关键任务数据和系统,它能够帮助公司在考虑灾难性事件时将资源进行合理分配。BIA可以让IT经理和中小企业业主清楚地看到,如果他们不部署灾难恢复计划,他们将可能损失的成本价值。

建立灾难恢复计划

当确定了RPO和RTO之后,你就可以正式建立灾难恢复计划了。当你在建立灾难恢复计划时,要牢记以下这些最佳做法:

要让公司所有的利益相关者参与进来,而不只是IT部门。举例来说,人力资源部在对员工进行灾难恢复计划培训以及计划沟通中时将发挥重要的作用,所以人力资源部应该参与进来;首席执行官和其他高级管理人员对于保证灾难恢复计划的资金和公司性购买方面是必不可少的角色;如果你的公司场所是租赁的,那么物业管理也应该了解你的计划;此外,最好还要告知当地的执法部门你所要实施的计划。将所有的利益相关者参与到规划和部署中是十分重要的。

防止数据仓库的产生:也许你会认为将文件保存到桌面是很方便的事情,但是这却是个不好的习惯。员工的个人电脑硬盘通常没有得到IT部门的备份支持,所以最好部署一个中央服务器来解决这种令人头疼的问题,让所有的员工能够规范地使用电脑。

优先备份:确定需要保存的数据以及保存时间,然后执行存储策略来优先备份关键数据和应用程序,首先要备份最关键的部分。

现场备份和非现场备份:我们现在拥有各种备份技术,从在线备份服务到磁盘和磁带解决方案等。在考虑选择何种备份服务时,最好选择既可以进行现场备份又可以进行非现场备份的备份服务,那样当你的主要业务场所无法使用时也可以对数据和应用程序进行备份。举例来说,有了磁盘镜像,至少会有两个硬盘同时进行复制和存储数据,那么,如果其中有一个磁盘出现故障,系统就可以自动切换至另一台磁盘,不管这两个磁盘在同一数据中心或是分布在不同城市,这样就可以减少数据和服务的损失。

确保远程访问:数据保存期限和网络访问同样重要。如果实体办公室不能避

免灾难的发生,员工还是需要接入网络基础设施来保持业务运行。如果让所有员工实现远程访问不现实,至少密钥持有者应该能够进行远程访问。

确定了停工时间限制以及部署了灾难恢复计划后,有必要进行定期测试。当然,测试需要花费一定的时间和金钱,所以公司的测试频率可以根据预算来设置。作为一个基准来说,中小企业至少每年进行两次测试。如果每年对整个系统进行两侧测试不能实现,至少也应该定期地对最关键的应用程序和系统进行测试。另外,在公司旺季的时候也应该进行测试,并且不需要告知所有的员工,除了必要的几个工作人员外,这样做是为了模拟真正的灾难。最后,IT经理在每次测试后都应该对灾难恢复系统进行审查,看看哪些地方容易出现故障,以及时纠正错误。

有效的灾难恢复计划对于企业生存发展力是至关重要的,根据McGladrey和Pullen事务所统计,每年每500个数据中心就会发生一次灾难事故,其中43%的灾难事故造成无法挽回的损失。而另外的29%企业将会被迫关闭两年。灾难恢复相当于企业保险,是你的企业不可缺少的部分

确保灾难恢复(DR)计划的实施

在今年早些时候提出的一份灾难恢复(DR)报告中,Forrester研究公司建议,在制定灾难恢复计划时,要采取以下七个步骤来确保争取到新的、额外的、正在运行的基金:

1.实施一套连续性的管理流程。技术支持灾难恢复的准备工作;这并不是一个连续的策略或者计划。在能争取到技术和服务的基金之前,你应该将灾难恢复的准备工作看作是一个连续性的流程,而不是一个一时的事件,并且为此制定一个总体的框架。

2.进行业务影响分析(BIA)和风险评估。在IT部门争取到资金之前,IT部门的人员必须坐下来与业务部门人员进行交流,共同确定哪些是公司里最关键的流程,哪些依赖于IT资源并计算出由于发生故障而引发的成本。然后,你还需要制定出一份风险评估,以确定特定风险的概率和频率。

3.计算出停机所产生的成本。理解停工成本是非常重要的,这有利于帮助业务人员和IT部门确定在每一个业务流程中可接受的停机时间和数据丢失,指导将来的技术和服务投资。

4.发展影响的情况,不只是解决“灾难”,要解决所有的风险。业务部门和

IT部门必须要同风险管理专家合作一起评估那些真正的破坏性事件的风险,例如,电力故障、IT故障、人为错误、设备故障、自然灾害和人为灾害。当管理者考虑灾难恢复的准备计划时,他们通常是先考虑为那些反常的事件做准备,例如,飓风、地震和恐怖主义事件等等。现实情况是,那些发生的灾难或主要业务的中断最常见的原因通常是人为事件,例如,停电和IT故障。灾难恢复计划者和IT运营专家必须要是管理人员明白灾难恢复的准备工作不仅仅是应对“灾难”而是应对那些像公司停工这样的事故的发生。

5.将灾难恢复(DR)看作是竞争的必要手段。如果你的公司停工,这就有可能为你的竞争对手提供机会扩大他们的市场份额。同样,正常开工就可以与竞争对手有平等的机会竞争市场份额。这有助于重新提起关于灾难恢复的讨论,要制定一份保险策略确保灾难恢复(灾难复原),将它作为一个竞争的必要手段。大多数公司,不只是金融服务公司都有一个备用的站点,并且利用先进的复制技术来保护数据。公司应该与同行或竞争对手保持一致。

6.制定一个灾难恢复(DR)服务目录。正如你与业务部门合作确定需求一样,也要制定一个灾难恢复目录。此目录将由业务流程的风险性、预计恢复时间和恢复点目标组成、支持性技术和服务、级别灾难恢复准备所需成本组成。IT部门必须始终要有一个正式的灾难恢复计划,还要评估那些IT部门必需的DR技术和服务所需花费的资金。

7.使DR技术与其他的IT举措保持一致。许多技术都会促使更快地恢复数据,他们也可以促使其他的IT举措,例如,服务器、存储和数据中心整合。IT整合对于节省成本,提高IT运行效率来说是至关重要的,所以,对于很多公司来说,这是一项策略性的举措。

 

第二篇:如何制定灾难恢复计划

1.没有考虑到可能会破坏基础设施和数据运行的所有可能性。除了显而易见的病毒,木马,蠕虫等威胁,还需要想到您所处的地理位置发生自然灾害的可能性,比如是否处于地震断层或是在洪水区,风暴多发区,或拉闸限电等等。在制定灾备计划时,一定要把这些看似与IT无关的因素也考虑进去,如果自然条件实在太恶劣,劝您可以考虑换个地方建设数据中心。
  
  2.灾备计划过于依赖很少的某几个员工。常常看到有些企业的灾难恢复计划依赖于某几个甚至一个IT员工,这很危险。万一如果该人由于某种原因无法工作或者刚好找不到他/她怎么办?您需要确定员工也得有“备份”,矩阵式结构的雇员组织形式会更好的做出应急响应。而且负责灾备的员工分布的地理位置最好是分散的,以防某一地区发生重大灾害。
  
  3.故障或灾难来临时,依靠手工流程通知工作人员。假设您的设备由于停电而终断运行,可是现场又没有人,负责灾备的IT人员怎么会知道机房停电了?您需要建立一套自动化的系统,发生灾难或者服务终断时它可以自动的通知您的IT员工。你还可以选择第三方服务,请服务商来监控您的设施并且指派受过灾备培训的专业人员来帮你执行你的灾难恢复计划。
  
  4。未能提供充足的后备电源。如果您的机房所在地常受到断电影响,一定要购买寿命最长的、最不易受干扰而间断的电力供应。还要准备好额外的备用电池以保证业务的持续能力。
  
  5。忘记安排哪些资源需要优先恢复。您的IT应用中,哪些是最重要的?是否有一些可以等待一两天也不会影响到业务?你需要事先安排好应用与服务的恢复顺序。比如,你可以选择首先重启您公司的电子邮件应用,然后再恢复部门文件服务器。在安排这个顺序时,你需要考虑到相关的法规遵从要求。
  
  6。未制定规范灾难恢复计划流程文档。在制订了一套灾备计划之后,您一定要把如何执行恢复计划的步骤写下来,要详细到每一个进程以及记录,描述所有系统资源的位置。这个灾备恢复步骤手册一定要多印几份,并且存储在多个不同的地方,并确保所有关键恢复人员人手一份。
  
  7。忘记测试灾难恢复计划。确保恢复计划在有紧急状况时真的可以恢复出来!虽然这似乎是显而易见的事,但是许多企业都忽视了这一点,没有充分测试他们的灾备恢复计划。应该定期进行灾难演习,测试每种可能发生的情况,从基本的电力故障到可能导致持续几个月的重大灾难性事件。
  
  8。密码也很难找到。虽然密码保护是数据安全的重要环节,不过还是建议您最好至少在两个不同的、安全的地方保存您的系统密码。确保一个以上的IT工作人员的人有机会进入那里,并能获得所有密码。并且,如果这些关键人员辞职了,一定要及时更改密码。
  
  9。未能保持恢复计划的更新。您需要不断更新您的灾难恢复计划,至少一个季度要再看一次。确定调用该计划的触发点,如人员、设备、地点或应用的改变等等。这不仅有利于IT工作人员的技能保持更新,还将让你有机会发现灾备计划程序中的漏洞并优化之。

为何需要灾备?主要有三个原因:第一个原因就是天灾难以控制;第二个原因就是人祸不可避免;第三个原因就是信息系统本身的脆弱性。这些原因直接决定了在未来的生活中,灾备将会越来越更深入到我们的生活。

什么是灾备?从字面上理解,灾备是灾难备份的缩略语。但是实际上,从更严格意义上说,信息系统的灾备应当是指信息系统的灾难备份与恢复,这实际上包含两层含义:灾难前的备份与灾难后的恢复。

信息系统有可能面对哪些类型的灾难?灾难的主要类型包括:自然灾难、人为灾难、技术灾难等。从灾难的类型,可以看出,应对信息系统灾难涉及到诸多相关研究领域和研究方向。总的来说,灾备是容错计算、信息安全和系统管理三个研究领域的综合。

灾备有哪些核心技术?一提到灾备核心技术,首先离不开的就是存储技术。数据在灾难过后保存下来,这是否就足够了呢?答案是否定的。这就需要第二项关键技术,信息系统评估和系统重构技术,这是体系结构需要研究的内容。当前的信息系统都是运行在网络环境中的,恶意入侵、病毒、数据通路、用户身份识别都有可能引起安全事故,这就需要第三项关键技术:信息安全技术。除了上述三个关键技术之外,还需要系统管理技术进行系统的协调与管理,这就是第四项关键技术。

灾备存储技术:当前灾备存储技术可以与应用相关(主要采用软件方式实现,可以定制关键信息,实现起来也比较灵活)、也可以无关(主要基于数据卷或者块,全信息复制,实现自动化不需要用户干预)。在灾备存储技术中主要包括:虚拟化存储技术、多存储版本的管理、删除重复数据技术、集群并行存储技术、高效能存储技术等。

灾备体系结构技术:其核心包括容错系统结构、数据恢复技术、系统恢复技术、业务连续性服务。

灾备信息安全技术主要用于保障数据在存储与传输过程中的安全性问题、网络系统的可靠和安全连接问题、计算机系统的安全性问题、使用用户的身份安全问题和系统操作的不可抵赖性问题等。其核心包括:数据安全性技术、网络安全技术、系统安全技术、身份安全技术、安全审计技术。

灾备系统管理技术是灾备的关键支撑技术,它包括如下内容:数据信息管理、灾难应急管理、、系统恢复管理、灾难影响评估与决策支持。

灾备技术未来发展方向可以概括为:(1)从围绕着数据存储向围绕着应用服务转变;存储技术由集中式向分布式、虚拟化发展;从孤立专用系统向综合服务系统转变。(2)围绕服务的灾备技术发展方向:保障业务连续性方向发展,要求数据完整而可用、系统快速重建、应用快速部署。(3)新型容灾体系结构研究。(4)灾备存储未来方向包括虚拟化灾备存储技术、重复数据删除与压缩技术、分布式灾备存储技术。(5)灾备综合服务系统建设,即,建立第三方中立机构形式的外包灾备系统,重点解决的问题包括:公信力问题、数据的安全性、维护的便捷性、可扩展性、可共享性等。

一个灾备系统怎么说它好?还是不好?怎么来评价呢?那么主要有四个指标来评价:分别是RTO、RPO、DOO、和NRO。

RTO是恢复时间目标,这个指标就是容灾恢复的时间指标。它的含义就是说从灾难发生造成的业务中断,一直到使业务能够以继续恢复所需要的这段时间。因此可以看出,如果RTO越短就意味着这个容灾系统的容灾能力越强。

RPO就是所谓的恢复点目标。什么是恢复点?恢复点是宕机以后后数据开始恢复的时间点,RPO所对应的灾难,所造成数据丢失情况,我们可以这样来看,如果RPO等于零,换句话来说,也就相当于没有造成数据丢失。因为我从什么地方跌倒,就什么地方爬起来,就没有造成数据本身的丢失,当然对其他可能还是有损失的。否则的话就需要对业务进行恢复处理,需要对丢失数据进行修复。

第三个指标DOO,就是降级操作指标,这个时候它主要考虑宕机恢复以后到第二次故障的灾难以后的时间。

第四个目标NRO,就是网络恢复的目标,主要是考虑网络恢复的时间。那么一个信息系统的灾备,它的结构怎么来描述呢?那么在信息领域里面,灾备系统可以描述为四大块:那么哪四大块呢?它其实是一个以存储系统作为基本的支撑,以网络作为基本的传输,以容错的软件、硬件技术作为直接的技术手段,以管理技术作为重要的辅助手段,这么四大块所组成的一个综合系统。