自動回復しない障害の処理 (Sun Cluster 2.2 のシステム管理)

Sun Cluster 2.2 のシステム管理

自動回復しない障害の処理

二重障害の中には、Sun Cluster によって自動回復しない場合もあります。次に例を示します。

二重列構成でノードと列の両方に障害が発生したが、残ったノード上のメディエータがゴールデンでない場合。詳細は、「ホストと列の障害」で説明しています。
メディエータデータが不正であるか古い、あるいはノードの 1 つまたは両方に存在しない状況にあり、二重列構成内の列の 1 つに障害が発生する。影響を受けた論理ホストの所有権を取得しようと試みるが失敗する。
二重列構成で 1 つの列に障害が発生したが、残った列上の正常な複製の数が、障害が発生したディスクセットの複製の合計数の半分に満たない。DiskSuite は次にこれらの複製を更新しようと試みるが、システム障害が発生する。
自動回復しない障害が発生し、手動の回復作業が完了する前に、影響を受けた論理ホストを保守モードから戻す試みがなされる。

ディスクセット、複製、メディエータの状態を定期的に監視することは非常に重要です。これらの監視には、medstat(1M) コマンドが便利です。多重障害を悪化させる危険性を避けるために、問題のあるメディエータデータ、複製、ディスクは常に速やかに修復してください。

この種の障害が発生した場合、次のようなエラーメッセージの 1 つがログに記録されます。

ERROR: metaset -s <diskset> -f -t exited with code 66
ERROR: Stale database for diskset <diskset>
NOTICE: Diskset <diskset> released
 
ERROR: metaset -s <diskset> -f -t exited with code 2
ERROR: Tagged data encountered for diskset <diskset>
NOTICE: Diskset <diskset> released
 
ERROR: metaset -s <diskset> -f -t exited with code 3
ERROR: Only 50% replicas and 50% mediator hosts available for 
diskset <diskset>
NOTICE: Diskset <diskset> released

最終的に、次のメッセージも表示されます。

ERROR: Could not take ownership of logical host(s) <lhost>, so 
switching into maintenance mode
ERROR: Once in maintenance mode, a logical host stays in 
maintenance mode until the admin intervenes manually
ERROR: The admin must investigate/repair the problem and if 
appropriate use haswitch command to move the logical host(s) out of 
maintenance mode

この種の二重障害では、データの完全性維持を優先するため、高可用性は犠牲になります。そのため、データがしばらく使用できなくなる可能性があります。また、完全なデータ回復やデータの整合性は保証されません。

ログメッセージを調べ、問題を見極め、障害が発生したハードウェアをできるかぎり修復した後、mediator(7) のマニュアルページに説明されている特殊な metaset(1M) オプションのいくつかを使用して、データアクセスを復元できる場合があります。しかし、これらのオプションの使用は、不正なデータの回復を避けるために、細心の注意を払う必要があります。

注意 -

2 つの列間の相互アクセスは、絶対に行わないでください。このようなアクセスが試みられると、状況は悪化します。

データのクライアントアクセスを復元する前に、データセット全体、またはそのデータセットに対する最近のトランザクションによって影響を受けているデータに対して任意の妥当性検査を行なってください。

論理ホストを保守モードから戻す haswitch(1M) コマンドを実行する前に、必ず関連するディスクセットの所有権を解放してください。