Sun Cluster Geographic Edition 系统管理指南

灾难恢复管理概述

本节提供了一个灾难恢复示例以及管理员可能需要执行的操作。

公司 X 有两个在地理上处于不同位置的群集:cluster-paris 在巴黎,cluster-newyork 在纽约。这些群集已配置为伙伴群集。在巴黎的群集被配置为主群集,在纽约的群集被配置为辅助群集。

在发生风暴时出现了电源故障,这导致 cluster-paris 群集暂时出现故障。对于管理员来说,将会发生以下事件:

  1. cluster-pariscluster-newyork 之间的心跳通信丢失。由于在创建伙伴关系时配置了心跳通知,因此系统会向管理员发送心跳丢失通知电子邮件。

    有关配置伙伴关系和心跳通知的信息,请参见创建和修改伙伴关系

  2. 管理员接收通知电子邮件,然后按照公司流程验证是否需要由辅助群集进行接管操作以便解决连接断开问题。由于接管操作的代价很高,因此除非在两个小时内无法修复主群集,否则公司 X 不允许采用接管操作。

    有关验证使用 Sun StorEdge Availability Suite 3.2.1 的系统是否断开连接的信息,请参见检测使用 Sun StorEdge Availability Suite 3.2.1 数据复制的系统上的群集故障

    有关验证使用 Hitachi TrueCopy 的系统是否断开连接的信息,请参见检测使用 Hitachi TrueCopy 数据复制的系统上的群集故障

  3. 由于至少在一天内无法使 cluster-paris 群集再次联机,因此管理员将在纽约的节点上执行 geopg takeover 命令,这会启动在纽约的辅助群集 cluster-newyork 上的保护组。

    有关在使用 Sun StorEdge Availability Suite 3.2.1 数据复制的系统上执行接管操作的信息,请参见在使用 Sun StorEdge Availability Suite 3.2.1 的系统上强制执行接管操作。有关在使用 Hitachi TrueCopy 数据复制的系统上执行接管操作的信息,请参见在使用 Hitachi TrueCopy 数据复制的系统上强制执行接管操作

  4. 执行接管操作之后, 辅助群集 cluster-newyork 将成为新的主群集。由于巴黎的故障群集仍被配置为主群集,因此当 cluster-paris 重新启动时,群集会检测到自己已关闭并失去了与伙伴群集的联系。然后,cluster-paris 进入错误状态,需要执行管理操作进行修复。该群集可能还需要恢复和重新同步数据。

    有关在使用 Sun StorEdge Availability Suite 3.2.1 数据复制的系统上进行接管操作后恢复数据的信息,请参见在执行接管操作后恢复 Sun StorEdge Availability Suite 3.2.1 数据。有关在使用 Hitachi TrueCopy 数据复制的系统上执行接管操作的信息,请参见在使用 Hitachi TrueCopy 复制的系统上将服务故障恢复到最初的主群集