DiskSuite 環境において SPARCstorage Array ディスクを交換する手順は、ディスク上のスライスの使用方法、およびディスクとシステムのケーブル接続方法によって大きく異なります。また、ディスクスライスがそのまま使用されるのか、DiskSuite によって使用されるのか、それともその両方なのかによっても異なります。
この作業は SPARCstorage Array 100 に適用されます。SPARCstorage Array 200 でディスクを交換するための手順もよく似ています。
この作業での手順を次に示します。
交換の必要なディスクを特定し、その位置を調査
取り出すべきトレイ内で「使用可能」とマークされたホットスペアを削除
取り出すべきトレイ内のディスク上にある状態データベースの複製を削除
取り出すべきトレイ内のディスクを使用するサブミラーを探索
交換中のディスク上にスライスをもつサブミラーを切断
トレイ内のディスクを使用する他のサブミラーをオフライン設定
トレイ内のディスクをすべて停止
トレイを除去してディスクを交換
トレイ内のディスクがすべて起動することを確認
新しいディスクをパーティションに再分割
トレイ内のサブミラーをオンラインに戻す
トレイ内の切断されたサブミラーを接続
削除されたホットスペアを交換
削除されたホットスペアをホットスペア集合に追加
削除されたメタデバイスの状態データベースの複製を追加
サブミラーが「保守」状態にある場合、ホットスペアによって交換された場合、またはときどきエラーが発生している場合には、この作業を使用できます。
ディスクを探索して交換するには、次の手順を実行します。
DiskSuite ツールを使用してオブジェクトの「状態」フィールドを調べるか、または metastat と /var/adm/messages の出力を調査することによって、交換するディスクを特定する。
# metastat ... d50:Submirror of d40 State: Needs Maintenance ... # tail -f /var/adm/messages ... Jun 1 16:15:26 host1 unix: WARNING: /io- unit@f,e1200000/sbi@0.0/SUNW,pln@a0000000,741022/ssd@3,4(ssd49): Jun 1 16:15:26 host1 unix: Error for command `write(I))' Err Jun 1 16:15:27 host1 unix: or Level: Fatal Jun 1 16:15:27 host1 unix: Requested Block 144004, Error Block: 715559 Jun 1 16:15:27 host1 unix: Sense Key: Media Error Jun 1 16:15:27 host1 unix: Vendor `CONNER': Jun 1 16:15:27 host1 unix: ASC=0x10(ID CRC or ECC error),ASCQ=0x0,FRU=0x15 ... |
metastat コマンドは、サブミラーが「Needs Maintenance」状態にあることを明らかにします。/var/adm/messages ファイルは、エラーのあるディスクドライブを通知します。ディスクドライブを探索するには、次のように ls コマンドを使用して、シンボリックリンクの名前と /var/adm/messages の出力からの名前を照合します。
# ls -l /dev/rdsk/* ... lrwxrwxrwx 1 root root 90 Mar 4 13:26 /dev/rdsk/c3t3d4s0 - > ../../devices/io- unit@f,e1200000/sbi@0.0/SUNW,pln@a0000000,741022/ssd@3,4(ssd49) ... |
上の情報と metastat の出力にもとづいて、ドライブ c3t3d4 を交換しなければならないことが決まります。
DiskSuite ツールを使用して、影響を受けるトレイを判定する。
障害の発生したディスクが存在する SPARCstorage Array トレイを見つけるには、「ディスク表示」ウィンドウを使用します。
「ディスク表示」をクリックして、「ディスク表示」ウィンドウを表示する。
障害の発生したメタデバイス (この例は、ミラー) を、オブジェクトリストから「ディスク表示」ウィンドウにドラッグする。
「ディスク表示」ウィンドウでは、メタデバイスを構成する物理スライスに色を割り当てることによって、論理デバイスから物理デバイスへのマップを表示します。障害の発生したディスクを含むトレイは、一目で判断できます。
ssaadm(1M) コマンドを使用する。
host1# ssaadm display c3 SPARCstorage Array Configuration Controller path: /devices/io- unit@f,e1200000/sbi@0.0/SUNW,soc@0,0/SUNW,pln@a0000000,741022:ctlr DEVICE STATUS TRAY1 TRAY2 TRAY3 Slot 1 Drive:0,0 Drive:2,0 Drive:4,0 2 Drive:0,1 Drive:2,1 Drive:4,1 3 Drive:0,2 Drive:2,2 Drive:4,2 4 Drive:0,3 Drive:2,3 Drive:4,3 5 Drive:0,4 Drive:2,4 Drive:4,4 6 Drive:1,0 Drive:3,0 Drive:5,0 7 Drive:1,1 Drive:3,1 Drive:5,1 8 Drive:1,2 Drive:3,2 Drive:5,2 9 Drive:1,3 Drive:3,3 Drive:5,3 10 Drive:1,4 Drive:3,4 Drive:5,4 CONTROLLER STATUS Vendor: SUNW Product ID: SSA100 Product Rev: 1.0 Firmware Rev: 2.3 Serial Num: 000000741022 Accumulate performance Statistics: Enabled |
コントローラ (c3) に対する ssaadm の出力によって、中央トレイを取り出すとき、Drive 3,4 (c3t3d4) が一番近い位置にあることがわかります。
[オプション] ディスクセットがある場合、影響を受けるドライブを含むディスクセットを探索する。
次のコマンドでは、ドライブ c3t3d4 を探索します。logicalhost2 でコマンドを実行したときには何の出力も表示されませんでしたが、logicalhost1 の場合は、名前が存在することが通知されたことに注目します。通知された出力の yes フィールドは、ディスクに状態データベースの複製が収められていることを示します。
host1# metaset -s logicalhost2 | grep c3t3d4 host1# metaset -s logicalhost1 | grep c3t3d4 c3t3d4 yes |
Solstice HA サーバーを使用している場合、2 つの論理ホストの所有権を 1 つの Solstice HA サーバーに切り替える必要があります。詳細については、Solstice HA のマニュアルを参照してください。
影響を受けるトレイ上の他の DiskSuite オブジェクトを判定する。
ディスクを交換するにはトレイを取り出す必要があるため、このプロセスにおいて影響を受ける他のオブジェクトを確認します。
影響を受けるトレイに他の DiskSuite オブジェクトを作成することによって、ディスク交換の準備を行う。
状態が「使用可能」であり、しかも障害の発生したディスクと同じトレイにあるホットスペアをすべて削除する。
交換作業が終了したらホットスペアをホットスペア集合に追加して戻せるよう、ホットスペアについての情報をすべて記録します。
取り出すべきトレイ内のディスク上にある状態データベースの複製を削除する。
これらの複製は手順 14 で交換しなければならないため、この情報を記録しておいてください。同じディスク上に複数の複製がある場合もあります。各スライスから削除された複製の数を記録しておきます。
トレイ内に存在するスライスを使用しているサブミラーを探索する。
交換中のディスク上のスライスをもつサブミラーをすべて切断する。
トレイ内にスライスをもつ他のサブミラーをすべてオフラインにする。
これにより、DiskSuite はトレイ内のサブミラースライスの使用を停止するため、ドライブを停止できます。
オブジェクトを除去するには、第 5 章「DiskSuite オブジェクトの除去」を参照してください。サブミラーを切断してオフラインにするには、「ミラーの操作」を参照してください。
SPARCstorage Array トレイ内のディスクをすべて停止する。
「ディスクの停止方法 (DiskSuite ツール)」を参照してください。
トレイ上の LED が点灯している間は、SPARCstorage Array トレイの除去を行うべきではありません。また、トレイが停止している間は、DiskSuite コマンドを実行しないでください。これを実行した場合、その副作用により、トレイ内のドライブの一部または全部が起動する可能性があります。
トレイを取り出し、不良ディスクを交換する。
ハードウェアの作業については、『SPARCstorage Array Model 100 Series Service Manual』および『SPARCcluster High Availability Server Service Manual』を参照してください。
SPARCstorage Array のトレイ内のディスクがすべて起動したことを確認する。
SPARCstorage Array トレイ内のディスクは、ハードウェアの交換作業に続いて、自動的に起動します。トレイが 2 分以内の自動起動に失敗した場合は、次のコマンドを使用してアクションを強制します。
# ssaadm start -t 2 c3 |
format(1M)、fmthard(1M)、またはストレージマネージャを使用して、新しいディスクをパーティションに再分割する。新しいディスクのパーティション分割は、交換されたディスクとまったく同じにする。
障害が発生する前に、ディスクフォーマット情報を保存することが望ましいです。
オフラインにされていたすべてのサブミラーを、オンラインに戻す。
「ミラーの操作」を参照してください。
サブミラーがオンラインに復帰すると、DiskSuite はすべてのサブミラーを自動的に再同期し、データを最新の状態にします。
切断されていたサブミラーを接続する。
「ミラーの操作」を参照してください。
手順 11 で接続されたサブミラー内で使用中のホットスペアを交換する。
サブミラーを切断前に、使用中のホットスペアを交換されたサブミラーがあった場合、このホットスペア交換は、サブミラーが再接続されてから有効となります。この手順によって、ホットスペアは「使用可能」状態に戻ります。
削除されたホットスペアをすべて追加する。
トレイ上のディスクから削除された状態データベースの複製をすべて追加する。
状態データベースの複製を交換するには、以前に保存した情報を使用します。
[オプション] Solstice HA サーバーを使用する場合、各論理ホストをそのデフォルトマスターに切り替える。
Solstice HA のマニュアルを参照してください。
データの妥当性をチェックする。
すべてのメタデバイスで、ユーザーデータとアプリケーションデータをチェックします。アプリケーションレベルの整合性チェック機能を実行したり、その他の方法でデータをチェックする必要があります。