Sun Cluster Geographic Edition のシステム管理

災害復旧管理の概要

この節では、災害復旧状況と、管理者が実施できる作業の例を示します。

X 社には、地理的に離れたクラスタが 2 つあります。1 つはパリの cluster-paris、もう 1 つはニューヨークの cluster-newyork です。これらのクラスタは、パートナークラスタとして構成されています。パリのクラスタは主クラスタ、ニューヨークのクラスタは二次クラスタとして構成されています。

暴風雨の影響による停電のため、cluster-paris クラスタが一時的に停止しました。管理者は次のイベントを予測できます。

  1. cluster-pariscluster-newyork の間でハートビート通信が停止しました。パートナーシップの作成中に、ハートビート通知を行うように構成したため、管理者に電子メールでハートビート喪失通知が送信されます。

    パートナーシップやハートビート通知の構成方法については、「パートナーシップの作成と変更」を参照してください。

  2. 管理者は、電子メール通知を受け取り、社内の処置規定に従って検証を行いました。この結果、二次クラスタによるテイクオーバーが必要な状況が発生したため、切り離しが行われたことがわかりました。テイクオーバーに時間がかかる可能性があるため、保護対象のアプリケーションの要件に従い、X 社は主クラスタを2時間以内に修復できないかぎりテイクオーバーを許可しません。

    システムでの切断の確認については、次のいずれかのデータ複製ガイドを参照してください。

  3. 少なくとももう 1 日、cluster-paris クラスタをふたたびオンラインにすることができないため、管理者はニューヨークのクラスタのノードで geopg takeover コマンドを実行します。このコマンドは、ニューヨークの二次クラスタ cluster-newyork 上で保護グループを起動します。

    システムでのテイクオーバーの実行については、次のいずれかのデータ複製ガイドを参照してください。

  4. テイクオーバーが行われると、二次クラスタ cluster-newyork が新たに主クラスタになります。障害を起こしたパリのクラスタは、まだ主クラスタとなるように構成されています。したがって、cluster-paris クラスタを再起動すると、主クラスタがダウンしてパートナークラスタとの接続が失われたことが、クラスタによって検出されます。その後、cluster-paris クラスタはエラー状態になります。この状態の解消には、管理アクションが必要です。また、クラスタ上のデータの復旧と再同期が必要になる場合もあります。

    テイクオーバー後のデータの復旧については、次のいずれかのデータ複製ガイドを参照してください。