灾难恢复测试 – 最佳实践

2020年教给世界的一件事是,灾难突如其来,毫无征兆。因此,企业必须为任何灾难做好准备,无论是大流行还是山火。企业必须能够在几乎没有中断的情况下提供其已建立的服务。实现这一点的方法之一是充分的规划。这涉及找出必要的资源以及如何确保它们得到保护和备份。

考虑到多年来企业组织经历的停电、飓风和其他灾难,许多组织正在战术性地重新审视其灾难恢复战略。根据Solutionsreview的说法,一个良好的灾难恢复计划必须包括多个组件和实践,以减轻人为灾难的风险并减少自然灾难的影响。此外,它应该能够快速检测到不受欢迎的事件,并启动纠正程序以恢复数据并确保业务连续性。

当实施了确保灾难恢复的有效实践时,客户保留得到保证,员工生产力得到提高,并且业务连续性得到保障。考虑到这些因素,我们制定了一份关于制定灾难恢复计划时要考虑的完整灾难恢复最佳实践清单。

灾难恢复实践

一个良好的灾难恢复计划是有效的灾难恢复实践的基石。灾难恢复计划是一种战略性和文档化的方法,详细说明了组织在发生意外情况后如何快速恢复工作。灾难恢复计划是业务连续计划(BCP)不可或缺的一部分。它帮助组织解决数据丢失问题,恢复系统功能,以在事故发生后恢复正常业务运营。

通常,一个组织的灾难恢复实践应该包括对业务流程和连续性需求的分析。在采用特定的灾难恢复实践之前,组织必须进行业务影响分析(BIA)和风险分析(RA)。这建立了其恢复目标。以下是确保您的策略适用于您的业务的一些最佳实践:

 

  • 明确你的计划

了解如何恢复系统的最佳时间是在系统关闭之前而不是在事故发生时。那将是一个仓促的计划。无论采用什么策略,都要将其记录下来并分发给所有与在灾难后恢复系统相关的人员。确保这些员工在系统关闭时也能够访问计划。

 

  • 与专家团队共同制定计划

当然,建立有效的灾难恢复实践不是一个人的工作。相反,这个过程涉及所有内部和外部利益相关者的贡献。一个有效的灾难恢复实践远不止于信息技术。它还涉及到硬件、软件、人员和流程。因此,组织应该让所有相关人员了解情况。确保的一种方法是将灾难恢复测试和演练纳入公司的安全实践中。此外,组织应该定期进行员工意识和培训。

 

  • 决定采用的灾难恢复实践

不同的业务无法采用相同的灾难恢复实践。根据前述步骤和预算的结果,组织可以选择以下任何一种DRP类型:

 

  • 数据中心灾难恢复计划:

这需要投资于一个数据中心建筑作为备份。这通常被称为灾难恢复站点。当主要操作经历停机时,预期这个灾难恢复站点将完全运作并立即启动。数据恢复站点有三种类型:

 

冷站:冷站是备份办公空间,配备有电源、冷却和通信系统。冷站不包含任何硬件,并且没有配置系统。如果主系统发生故障,运营团队将需要转移他们的服务器并从头开始设置所有内容。尽管它的设置似乎有点费力,但冷站是最便宜的数据恢复站点类型。然而,它需要额外的劳动力,如果没有正确执行,可能无法满足组织的目标。

热站:热站复制主数据中心的设置。它包含所有必要的硬件、软件和网络配置。在停电时,操作立即连接到热站,无需延迟,并继续无感知地运行。由于这种类型需要一个不断运行的设置,因此它是最昂贵的选项。作为补偿,它也是最有效的。

温站:温站集成了基本的硬件,预先安装了软件和网络配置。温站仅在不规则的时间间隔备份操作关键资产。这种类型适用于具有较不重要数据和更高恢复点目标的组织。但可能需要进行成本效益分析,以在热站和温站之间进行选择。

 

  • 基于虚拟化的DRP

基于虚拟化的DRP运行在虚拟机上,而不是物理硬件和恢复站点上。有关主基础设施的信息被存储并定期更新。虚拟机可以是数据库、服务器或应用程序设置。虚拟化的DRP相对于其他一些选项来说要便宜得多,但它取决于恢复策略。因此,了解恢复软件和备份媒介是至关重要的。

 

  • 基于云的DRP

基于云的DRP涉及使用云提供商对基本业务资产或主要设置进行备份。基于云的恢复实践需要与云管理员进行大量的协调,以确保安全性、测试和实现恢复时间和点目标。组织可以确定其物理和虚拟服务器的位置。这个选项可能比基于虚拟化的DRP更昂贵,但比数据中心DRP更便宜。

 

  • 灾难恢复即服务(DRaaS)

没有专业知识和资源来建立自己的DRP的组织可以雇佣第三方服务提供商的服务。这些提供者被称为灾难恢复即服务公司。DRaaS的成本根据组织的灾难恢复计划目标而变化。

 

  • 评估您的灾难恢复计划并进行真实场景测试。

任何潜在成功的灾难恢复计划都取决于其经过多少次测试以及测试的性能。未经测试的计划会产生对安全性的错误印象。与每项其他业务安全程序一样,组织必须定期测试其灾难恢复计划,以确定其对组织的最佳实践。此外,由于业务需求因不断变化的业务状况和动态的业务法规而发生变化,组织采用的灾难恢复实践可能也需要轻微或重大的调整。

无论是哪种情况,组织都应该考虑这个过程的规模,并在预算中包括测试评估和迭代。大多数灾难恢复实践都是在专家团队的测试和批准下采纳的。此外,如果组织在测试中没有涉及适当的人员,很可能会忽略恢复计划中的细微错误。通过引入各种挑战进入恢复过程中,测试演练可以变得更加完善。成功的测试活动必须提供详尽的报告,解释进行的测试类型、测试频率、遵守的程序、成功因素、不足之处等。

Storware备份与恢复的最有用的功能之一是恢复计划。恢复计划的目的是简化灾难恢复程序,使Storware备份与恢复能够根据预定义的参数对指定的目标环境执行多个恢复操作。这些恢复策略可以在用户自行决定或按照特定间隔(例如定期恢复测试)安排启动。每个恢复计划都由指南组成,针对不同的虚拟化平台定制,定义虚拟机、恢复配置,以及如果需要的话,时序。只有被标记为活动的指南才会被执行。

 

  • 拥有灾难恢复手册

既然你已经选择了一个灾难恢复计划,你应该创建一个涵盖有关数据恢复计划的多个细节的灾难恢复手册,比如你的恢复时间目标、每项服务的恢复时间目标、基于所选择的灾难恢复计划的逐步恢复计划,负责每个操作的员工的详细信息,紧急响应人员的信息等。

 

场景

  • 数据丢失和备份恢复

测试的关键灾难恢复场景之一是数据丢失。当发生数据丢失时,业务必须能够从备份中恢复丢失的数据,否则业务连续性将受到威胁。无论是单个文件的删除还是服务器故障,如果无法恢复数据,情况可能变得不愉快。

那么,到底要测试什么?首先,您应该确保您的备份是可行的,并且可以还原。执行文件级还原和完整机器恢复的测试,以确保在实际事件中都可以完成这两个操作。测试后,您应考虑以下事项:

  • 恢复所需的时间。
  • 是否实现了RTO和RPO目标。
  • 阻碍恢复过程的即时问题。
  • 这种恢复速度是否可以改善?

 

  • 网络中断和故障

持续网络中断的影响可类比为数据丢失。当网络中断时,IT专业人员必须迅速做出反应。检查您对网络中断的准备情况是确保在发生问题时能够迅速解决问题的最佳方式。有几种网络测试工具可以帮助模拟常见的灾难场景。例如:

  • 测试网络流量的突然激增
  • 模拟重大网络攻击效果的模拟测试
  • 检测网络特定部分潜在问题的网络健康测试

 

停电

停电也是重要的灾难恢复场景之一。停电通常在恶劣天气和其他自然灾害中很常见,但由于各种原因也可能发生。一旦恢复团队注意到停电的任何迹象,他们应该立即迅速工作,通过:

  • 检查停电是否局限在建筑物内还是普遍发生。
  • 通知公用事业提供商有关停电的情况,并要求可能的解决方案。
  • 检查备用电源以确保其正常运作。
  • 优先考虑仅依赖电力的服务。

 

最后,应适当审查和测试这些协议,以确保恢复团队能够迅速行动,并在停电时确切知道该做什么。

遵循这些步骤将为组织提供一个确保恢复的数据恢复计划。然而,组织必须定期测试其策略,以确保其效果。

text written by:

Łukasz Błocki, Professional Services Architect