電力損失から回復させるには (Solstice DiskSuite) (Sun Cluster 2.2 のシステム管理)

Sun Cluster 2.2 のシステム管理

電力損失から回復させるには (Solstice DiskSuite)

次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の回復手順の概略を示します。

エラーが発生した複製を特定する
エラーが発生した複製を稼動状態にする
エラーが発生したデバイスを特定する
エラーが発生したデバイスを稼動状態にする
ディスクの同期をとり直す

次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の詳しい回復手順を示します。

電力が戻った時点で、metadb(1M) コマンドを実行してエラーが発生した複製を特定します。
# metadb -s diskset

複製を稼動状態にします。

停電後、影響を受けた SPARCstorage Array すべてのメタデバイス状態データベースの複製がエラー状態になります。メタデバイス状態データベースの複製は自動回復しないため、SPARCstorage Array がサービスに戻った直後に回復させるのが最も安全です。回復が遅れると障害がさらに発生し、複製のほとんどがサービス不能になり、カーネルの障害を引き起こす場合があります。これは、Solstice DiskSuite 構成で使用できる複製が少なすぎる場合によく起きる現象です。

エラーが発生したこれらの複製は次のテイクオーバー (haswitch(1M) または reboot(1M)) で修復されますが、まずこれらを削除して追加し直すことにより手動で稼動状態にするのが最善の解決策です。

注 -
各スライスで削除した複製と同じ数の複製を追加してください。複製は、metadb(1M) コマンドを 1 回実行することでまとめて削除できます。1 つのスライスに複製のコピーを複数格納する必要がある場合は、-c フラグを指定した metadb(1M) を 1 度呼び出し、まとめて追加します。

metstat(1M) コマンドを実行して、エラーが発生したメタデバイスを特定します。
# metastat -s diskset

metareplace(1M) コマンドを使用して、エラーが発生したメタデバイスを稼動状態に戻します。これにより、ディスクの同期がとり直されます。
# metareplace -s diskset -e mirror component
-e オプションは、コンポーネント (スライス) を Available 状態に変え、同期を取り直します。

ホットスペアに置き換えられているコンポーネントは、metareplace(1M) コマンドを使用して最後に交換してください。ホットスペアを最初に交換すると、ホットスペアが使用できる状態になったとたんに、エラーが発生したほかのサブミラーが交換される可能性があります。

一度に同期を取り直すことができるのは、サブミラー (メタデバイス) の 1 つのコンポーネントだけです。サブミラーのすべてのコンポーネントが停電の影響を受けた場合は、各コンポーネントを個々に交換する必要があります。1.05G バイトディスクの同期をとり直すには約 10 分かかります。

停電で複数のディスクセットが影響を受けた場合は、各ディスクセットの影響を受けたサブミラーの同期を同時にとり直すことができます。各ホストに個別にログインし、metareplace(1M) コマンドを各ホストで実行してホストのディスクセットを回復させてください。

注 -
サブミラーの数とサブミラー内のコンポーネントの数によっては、再同期に相当な時間がかかる場合があります。たとえば、コンポーネントが 5 つしかない管理が容易なサブミラーは、50 分ほどで完了する場合がありますが、1.05G バイトのドライブが 30 個あるようなサブミラーの場合、完了までに約 5 時間かかる可能性があります。