Sun Cluster Geographic Edition 系统管理指南

灾难恢复管理概述

本节提供了一个灾难恢复示例以及管理员可能需要执行的操作。

X 公司有两个在地理上处于不同位置的群集:cluster-paris 位于巴黎,cluster-newyork 位于纽约。这些群集已配置为伙伴群集。在巴黎的群集被配置为主群集,在纽约的群集被配置为辅助群集。

在发生风暴时出现了电源故障,这导致 cluster-paris 群集暂时出现故障。管理员可能要面对以下事件:

  1. cluster-pariscluster-newyork 之间的心跳通信丢失。由于在创建伙伴关系时配置了心跳通知,因此系统会向管理员发送心跳丢失通知电子邮件。

    有关配置伙伴关系和心跳通知的信息,请参见创建和修改伙伴关系

  2. 管理员收到通知电子邮件,然后按照公司流程检验是否因需要由辅助群集进行接管的情况而发生了连接中断。由于接管过程可能持续较长时间(具体情况取决于所保护的应用程序的需要),因此 X 公司不允许进行接管,除非主群集无法在两个小时以内修复。

    有关检验系统的连接中断故障的信息,请参见以下数据复制指南之一:

  3. 由于群集 cluster-paris 至少还需要一天的时间恢复联机,因此管理员会在位于纽约的群集中的某个节点上运行 geopg takeover 命令。此命令会启动位于纽约的辅助群集 cluster-newyork 上的保护组。

    有关在系统上执行接管操作的信息,请参见以下数据复制指南之一:

  4. 执行接管操作之后, 辅助群集 cluster-newyork 将成为新的主群集。但位于巴黎的故障群集仍被配置为主群集。因此,当 cluster-paris 群集重新启动后,它会检测到主群集已关闭,从而失去与伙伴群集的联系。之后,群集 cluster-paris 进入错误状态,必须执行相应的管理操作来修复该错误。此外,您可能还需要恢复并重新同步该群集上的数据。

    有关执行接管后恢复数据的信息,请参见以下数据复制指南之一: