この章では、Sun Cluster ローカルディスクの管理方法について説明します。この章に示す作業の一部は、ボリューム管理ソフトウェア (Solstice DiskSuite、SSVM、CVM) によって異なります。ボリュームマネージャによって作業方法が異なる場合は、作業のタイトル名にボリュームマネージャ名が示されています。
この章では、次の項目について説明します。
この章で説明する手順は、次のとおりです。
Sun Cluster では、その管理の一環として構成状態の監視を行います (監視方法については第 2 章「Sun Cluster の管理ツール」を参照)。この監視処理によって、ローカルディスクの障害が明らかになる場合があります。以下の節では、発見された障害の解決方法について説明しています。
多重ホストディスクの管理作業については、使用しているディスク拡張装置の管理について説明している章を参照してください。Sun Cluster 構成内のハードウェアを交換または修理する場合は、ボリュームマネージャのマニュアルも参照してください。
ソフトウェア上の問題によって起動ディスクを認識できない状態が発生した場合や、オペレーティングシステムのアップグレードに失敗した場合、ハードウェア障害が発生した場合などには、クラスタノードの起動ディスクを交換する必要があります。起動ディスクを認識できる状態に復元する場合やディスクを交換する場合は、以下の各作業方法を参照してください。
これらの作業は、起動ディスクのバックアップコピーが存在することを前提としています。
物理ホストが同じクラスタ内に存在する場合は、ほかのホストがすべてのホストにデータサービスを提供している間に、ローカルホストに対してこの作業を実行します。この例では、2 つの物理ホスト phys-hahost1 と phys-hahost2、および 2 つの論理ホスト hahost1 と hahost2 を使用します。
次に、Solstice DiskSuite 構成でバックアップから起動ディスクを復元する手順の概略を示します。
ディスクセットから起動ディスクが含まれているホストを削除する
バックアップから起動ディスクを復元する
復元されたディスク上の複製を更新する (復元されたディスク上に新しい複製を作成する)
ディスクセットにホストを追加し直す
そのホストで Sun Cluster を起動する
論理ホストをそのデフォルトマスターにスイッチオーバーする (スイッチバックに手動モードが設定されている場合)
次に、Solstice DiskSuite 構成で、バックアップから起動ディスクを復元する詳しい手順を示します。この例では、phys-hahost1 に復元されるディスクが含まれており、起動ディスクはミラー化されていません。
復元が必要なホストを停止します。
クラスタ内のほかのホストで、metaset(1M) コマンドを使用して、ディスクセットから復元対象のホストを削除します。
この例では、クラスタ内のほかのホスト phys-hahost2 から metaset(1M) コマンドを実行しています。
phys-hahost2# metaset -s hahost1 -f -d -h phys-hahost1 phys-hahost2# metaset -s hahost2 -f -d -h phys-hahost1 |
バックアップメディアから復元されるホストで、起動ディスクを復元します。
『Solaris のシステム管理』の「ファイルとファイルシステムの復元」に示された方法に従って、起動ディスクファイルシステムを復元してください。
復元対象のホストを再起動します。
DiskSuite の古い複製を削除し、再起動します。
障害が発生したディスクを交換すると、古い複製は存在しなくなります。ディスクを復元する場合は、metadb(1M) コマンドを実行して古い複製が存在するかどうかを確認してください。存在する場合は、古い複製を削除してください。
複製のデフォルトの位置はスライス 7 ですが、複製を必ずしもスライス 7 に置く必要はありません。
phys-hahost1# metadb -d -f c0t3d0s7 phys-hahost1# reboot |
metadb(1M) コマンドを使用して、復元されたディスクに DiskSuite の新しい複製を作成します。
phys-hahost1# metadb -afc 3 c0t3d0s7 |
兄弟ホストから、復元されたホストをディスクセットに追加します。
phys-hahost2# metaset -s hahost1 -a -h phys-hahost1 phys-hahost2# metaset -s hahost2 -a -h phys-hahost1 |
復元されたホストで Sun Cluster を起動します。
phys-hahost1# scadmin startnode |
必要に応じて、論理ホストをデフォルトマスターにスイッチバックします。
手動モードが設定されていない場合は、自動スイッチバックが発生します。
phys-hahost1# haswitch phys-hahost1 hahost1 |
物理ホストが同じクラスタ内に存在する場合は、ほかのホストがすべてのホストにデータサービスを提供している間に、ローカルホストに対してこの作業を実行します。この例では、2 つの物理ホスト phys-hahost1 と phys-hahost2、および 2 つの論理ホスト hahost1 と hahost2 を使用します。この例では、起動ディスクはミラー化されていません。
次に、SSVM 構成または CVM 構成で、バックアップから起動ディスクを復元する手順の概略を示します。
復元が必要なホストを停止する
バックアップから起動ディスクを復元する
そのホストで Sun Cluster を起動する
論理ホストをそのデフォルトマスターにスイッチオーバーする (スイッチバックに手動モードが設定されている場合)
次に、SSVM 構成または CVM 構成で、バックアップから起動ディスクを復元する詳しい手順を示します。この例では、phys-hahost1 に復元対象のディスクが含まれています。
復元が必要なホストを停止します。
バックアップメディアから、復元対象のホストの起動ディスクを復元します。
『Solaris のシステム管理』の「ファイルとファイルシステムの復元の」に示された方法に従って、起動ディスクファイルシステムを復元してください。 。
復元対象のホストを再起動します。
再起動によって、ホストにすべてのデバイスが認識されます。
ディスクが予約されている場合は、予約が解除された時点で vxdctl -enable を実行しなければならない場合があります。
ローカルホストで Sun Cluster を起動します。
phys-hahost1# scadmin startnode |
必要に応じて、論理ホストをデフォルトマスターにスイッチバックします。
手動モードが設定されていない場合は、自動スイッチバックが発生します。
phys-hahost1# haswitch phys-hahost1 hahost1 |
この節では、Solaris オペレーティングシステム環境を含まない、障害のあるローカルディスクの交換方法について説明します。
ローカル非起動ディスクに障害が発生した場合は、通常、バックアップコピーを使用してデータを新しいディスクに復元することにより回復させます。
ローカル起動ディスクの復元方法は、「バックアップからローカル起動ディスクを復元するには (Solstice DiskSuite)」と、10-4 ページの「バックアップからローカル起動ディスクを復元するには (SSVM、CVM)」で説明しています。
次に、障害が発生したローカル非起動ディスクを交換する手順の概略を示します。
(省略可能) 欠陥のあるディスクが含まれるノードで Sun Cluster を停止し、ノードを停止する
ディスクを交換する
新しいディスクのフォーマットとパーティション分割を行う
バックアップコピーからデータを復元する
そのホストで Sun Cluster を起動する
論理ホストをそのデフォルトマスターにスイッチオーバーする (スイッチバックに手動モードが設定されている場合)
次に、障害が発生したローカル非起動ディスクを交換する詳しい手順を示します。この例では、phys-hahost2 に障害が発生したディスクが含まれています。
(省略可能) 障害が発生したディスクが含まれたノードで Sun Cluster サービスを停止し、ノードを停止します。
ノードが SPARCstorage Array ディスクから起動する場合は、この手順を行う必要はありません。ただし、稼動中の起動ディスクと同じ SCSI バス上に交換対象のディスクが設置されている場合は、Sun Cluster を停止し、ノードを停止する必要があります。
# scadmin stopnode ... # halt |
ディスクを交換します。
Sun Cluster ノードのサービスマニュアルに示されている手順に従ってください。
シングルユーザーモードでノードを起動します。
format(1M) または fmthard(1M) コマンドを実行して、新しいディスクを再分割します。
新しいディスクは、交換したディスクとまったく同じになるように分割してください (ディスクフォーマット情報の保存については、第 1 章「Sun Cluster の管理の準備」で説明しています)。
mount(1M) コマンドを実行し、該当するファイルシステムをマウントします。
ファイルシステムごとに、デバイスとマウントポイントを指定してください。
バックアップコピーからデータを復元します。
『Solaris のシステム管理』で説明されている手順に従ってください。
ノードを再起動します。
そのローカルホストで Sun Cluster を起動します。
phys-hahost1# scadmin startnode |
必要に応じて、論理ホストをデフォルトマスターにスイッチバックします。
手動モードが設定されていない場合は、自動スイッチバックが発生します。
phys-hahost2# haswitch phys-hahost2 hahost2 |
この章では、SPARCstorage Array Model 100 シリーズ、差動型 SCSI が搭載された SPARCstorage Array Model 200 シリーズ、RSM ディスクトレーが搭載された SPARCstorage Array Model 200 シリーズの管理方法について説明します。
この章で説明する手順は、次のとおりです。
Sun Cluster 構成で SPARCstorage Array のハードウェアを交換または修復する場合は、SPARCstorage Array のサービスマニュアルとボリュームマネージャのマニュアルを参照してください。
SPARCstorage Array の 1 つが停電すると、I/O オペレーションはボリューム管理ソフトウェアによって検出されるエラーを生成します。これらのエラーは、そのディスクに対して I/O トランザクションが行われるまでは報告されません。影響を受けたデバイスにホットスペアが設定されている場合は、ホットスペアアクティビティを開始できます。
これらのイベントについては、構成の監視が必要です。構成の監視については、第 2 章「Sun Cluster の管理ツール」を参照してください。
次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の回復手順の概略を示します。
エラーが発生した複製を特定する
エラーが発生した複製を稼動状態にする
エラーが発生したデバイスを特定する
エラーが発生したデバイスを稼動状態にする
ディスクの同期をとり直す
次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の詳しい回復手順を示します。
電力が戻った時点で、metadb(1M) コマンドを実行してエラーが発生した複製を特定します。
# metadb -s diskset |
複製を稼動状態にします。
停電後、影響を受けた SPARCstorage Array すべてのメタデバイス状態データベースの複製がエラー状態になります。メタデバイス状態データベースの複製は自動回復しないため、SPARCstorage Array がサービスに戻った直後に回復させるのが最も安全です。回復が遅れると障害がさらに発生し、複製のほとんどがサービス不能になり、カーネルの障害を引き起こす場合があります。これは、Solstice DiskSuite 構成で使用できる複製が少なすぎる場合によく起きる現象です。
エラーが発生したこれらの複製は次のテイクオーバー (haswitch(1M) または reboot(1M)) で修復されますが、まずこれらを削除して追加し直すことにより手動で稼動状態にするのが最善の解決策です。
各スライスで削除した複製と同じ数の複製を追加してください。複製は、metadb(1M) コマンドを 1 回実行することでまとめて削除できます。1 つのスライスに複製のコピーを複数格納する必要がある場合は、-c フラグを指定した metadb(1M) を 1 度呼び出し、まとめて追加します。
metstat(1M) コマンドを実行して、エラーが発生したメタデバイスを特定します。
# metastat -s diskset |
metareplace(1M) コマンドを使用して、エラーが発生したメタデバイスを稼動状態に戻します。これにより、ディスクの同期がとり直されます。
# metareplace -s diskset -e mirror component |
-e オプションは、コンポーネント (スライス) を Available 状態に変え、同期を取り直します。
ホットスペアに置き換えられているコンポーネントは、metareplace(1M) コマンドを使用して最後に交換してください。ホットスペアを最初に交換すると、ホットスペアが使用できる状態になったとたんに、エラーが発生したほかのサブミラーが交換される可能性があります。
一度に同期を取り直すことができるのは、サブミラー (メタデバイス) の 1 つのコンポーネントだけです。サブミラーのすべてのコンポーネントが停電の影響を受けた場合は、各コンポーネントを個々に交換する必要があります。1.05G バイトディスクの同期をとり直すには約 10 分かかります。
停電で複数のディスクセットが影響を受けた場合は、各ディスクセットの影響を受けたサブミラーの同期を同時にとり直すことができます。各ホストに個別にログインし、metareplace(1M) コマンドを各ホストで実行してホストのディスクセットを回復させてください。
サブミラーの数とサブミラー内のコンポーネントの数によっては、再同期に相当な時間がかかる場合があります。たとえば、コンポーネントが 5 つしかない管理が容易なサブミラーは、50 分ほどで完了する場合がありますが、1.05G バイトのドライブが 30 個あるようなサブミラーの場合、完了までに約 5 時間かかる可能性があります。
停電が起きると、ディスクドライブが切り離されると同時に、プレックスが切り離されて使用できなくなります。ミラー化されていると、ボリューム内のほかのプレックスはそのまま使用できるため、ボリュームはアクティブに保たれます。クラスタ内のノードを停止せずにディスクドライブを再接続してこの状況を回復させることができます。
次に、SSVM 構成で SPARCstorage Array を電力損失から回復させる手順の概略を示します。
vxprint と vxdisk コマンドを使用して、エラーが発生したプレックスを確認する
電力損失の原因となった障害を修復する
drvconfig と disks コマンドを実行して、/devices と /dev エントリを作成する
現在のディスク構成を走査する
一時的な障害が発生したディスクを再接続する
障害がほかにないことを確認する
(省略可能) 共有ディスクグループでは、停電したディスクごとに vxdg コマンドを実行する
ボリュームの回復を開始する
次に、SSVM 構成で SPARCstorage Array を電力損失から回復させる詳しい手順を示します。
vxprint コマンドを実行して、エラーが発生したプレックスを表示します。
必要に応じて、-g diskgroup オプションを使用してディスクグループを指定してください。
vxdisk コマンドを実行して、エラーが発生したディスクを確認します。
# vxdisk list DEVICE TYPE DISK GROUP STATUS .. - - c1t5d0 toi failed was:c1t5d0s2 ... |
障害が発生したすべてのディスクに電力が戻るように、障害の原因を修復します。
修復を行う前に、ディスクが起動していることを確認してください。
クラスタ内のすべてのノードで、次のコマンドを入力します。
場合によっては、ノード別にドライブを確認し直す必要があります。
# drvconfig # disks |
クラスタ内のすべてのノードで、次のコマンドを入力します。
SSVM または CVM によって、現在のディスク構成の走査が再度行われます。
# vxdctl enable # vxdisk -a online |
クラスタ内のすべてのノードで、次のコマンドを入力します。
CVM では、まずマスターノードでこのコマンドを入力し、その後にスレーブノードで入力してください。
このコマンドにより、一時的な障害が発生していたディスクが接続し直されます。
# vxreattach |
vxdisk コマンドの出力を検証し、ほかにエラーがないかどうかを確認します。
# vxdisk list |
まだエラーがある場合は、手順 6 の説明に従って vxreattach コマンドを再実行します。
(CVM のみ) 共有ディスクグループが存在し、メディアがマスターノードから切り離された場合は、切り離されたディスクごとに次のコマンドを繰り返します。
このコマンドにより、物理ディスクとそのディスクのボリュームマネージャのアクセス名が再結合されます。
# vxdg -g disk-group-name -k adddisk medianame=accessname |
medianame と accessname の値が、vxdisk list コマンド出力の最後に表示されます。
次に例を示します。
# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2 # vxdg -g toi -k adddisk c1t5d1=c1t5d1s2 # vxdg -g toi -k adddisk c1t5d2=c1t5d2s2 # vxdg -g toi -k adddisk c1t5d3=c1t5d3s2 # vxdg -g toi -k adddisk c1t5d4=c1t5d4s2 |
ディスクの再接続には、vxdiskadm コマンドまたは GUI も使用できます。
ノード、または共有ディスクグループのマスターノードから、ボリュームの回復を開始します。
# vxrecover -bv [-g diskgroup] |
(省略可能) vxprint -g コマンドを実行して、変更を表示します。
SPARCstorage Array からホストに対する接続が失敗した場合は、原因として光ファイバケーブル、SBus FC/S カード、FC/OM モジュールなどが考えられます。
接続が失敗したホストは、その失敗が発見されるとエラーを生成します。その後 SPARCstorage Array にアクセスすると、別のエラーが生成されます。ホストは、SPARCstorage Array が停電したかのように動作します。
この種の障害は、クラスタ内のほかのノードからの I/O 操作には影響を与えません。
障害を診断するには、SPARCstorage Array の出力を調べてください。この出力から、どの接続が失敗したかがわかります。Sun Cluster ノードのサービスマニュアルで説明されている FC/S カードと FC/OM モジュールのテスト作業を行なって、どのコンポーネントで接続が失敗しているかを調べてください。ハードウェアデバッグを行うには、Sun Cluster ノードの 1 つとダウンしていると思われる SPARCstorage Array を解放してください。
コンポーネントの交換ができるように Sun Cluster システムの準備を行います。
接続の失敗原因にもとづいて、次に示す作業の 1 つを行なって Sun Cluster システムを準備してください。
接続に失敗したコンポーネントが FC/S カードまたは FC/S カードの FC/OM モジュールである場合は、第 7 章「サーバーコンポーネントの管理」を参照して Sun Cluster ノードの電源が落とせるように準備します。
問題が光ファイバケーブルの欠陥にある場合は、ボリューム管理ソフトウェアがすでにその問題を検出し、ケーブルが交換できるようにシステムの準備を行なっています。
SPARCstorage Array の FC/OM モジュールに障害が発生している場合は、SPARCstorage Array トレーごとに、「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」または 「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の作業により、SPARCstorage Array 全体の準備を行なってください。
障害のあるコンポーネントを交換します。
光ファイバケーブル、SBus FC/S カード、または FC/OM モジュールに障害がある場合は、Sun Cluster ノードのサービスマニュアルで詳しい交換方法を確認してください。
ボリューム管理ソフトウェアのエラーから回復させます。
「電力損失からの回復」に示された作業を行なってください。
SPARCstorage Array は、任意の時点で Sun Cluster 構成に追加できます。
SPARCstorage Array を追加するには、あらかじめクラスタ内のディスクグループ構成を確認する必要があります。SPARCstorage Array がディスクグループ構成に与える影響を調べるには、『Sun Cluster 2.2 ソフトウェアのインストール』の構成計画についての説明を参照してください。
新しい SPARCstorage Array を受けるクラスタノードを停止します。
「1 つのクラスタノードで Sun Cluster を停止するには」を参照して、ノードを停止してください。
ノードに Fibre Channel SBus カード (FC/S) を取り付けます。
Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従って、FC/S カードを取り付けてください。
FC/S カードは、ノード内のほかのカードに続くように、SBus スロットの最初の空きスロットに差し込んでください。これにより、Solaris オペレーティング環境が再インストールされる場合に、コントローラの番号付けがそのまま保たれます。詳細は、「インスタンス名と番号付け」を参照してください。
SPARCstorage Array と FC/S カードにケーブルを接続します。
Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従ってください。
ノードの再構成再起動を行います。
ok boot -r |
haswitch(1M) コマンドを実行して、制御可能なすべての論理ホストの所有権を再起動したノードに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2 |
この SPARCstorage Array に接続されているほかのノードで、手順 4 までを繰り返します。
必要に応じ、論理ホストの所有権を該当するデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2 |
SPARCstorage Array 内のディスクを、選択されたディスクグループに追加します。
ボリュームマネージャのマニュアルに示された作業方法に従って、ディスクを選択されたディスクグループに追加してください。『Sun Cluster 2.2 ソフトウェアのインストール』の Solstice DiskSuite、SSVM、および CVM についての説明も参照してください。
(Solstice DiskSuite 構成のみ) metaset(1M) コマンドを使用してディスクセットにディスクを追加した後、scadmin(1M) コマンドを使用して指定されたディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost1# scadmin reserve cNtXdYsZ |
この節では、SPARCstorage Array トレーの管理作業について説明します。障害が発生したコンポーネントに対応するトレーを確認するには、ノードのハードウェアマニュアルに示された作業方法に従ってください。
SPARCstorage Array シャーシ全体を交換しなければならないようなデータ消失や障害を防ぐには、単一のシャーシにサブミラーが 1 つだけが格納されるようにすべてのミラーを設定します。
Sun Cluster がサポートする SPARCstorage Array モデルはいくつかありますが、この節の作業は SPARCstorage Array 100 シリーズだけを対象としています。
SPARCstorage Array トレーを取り外す前に、すべての I/O を停止し、トレー内のすべてのドライブを停止する必要があります。ドライブは I/O 要求が出されると自動的に起動するため、ドライブを停止する前にすべての I/O を停止する必要があります。
次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを取り外す手順の概略を示します。
論理ホストをほかのクラスタノードに切り替える
影響を受けるトレーの I/O を停止する
影響を受けるトレー上の複製、ホットスペア、サブミラーを確認する
NVRAM データをフラッシュする (NVRAM が有効になっている場合)
トレーを停止し、取り外す
SPARCstorage Array 全体がサービスの対象となっている場合は、これらの手順をトレーごとに行う必要があります。
次に、Solstice DiskSuite 構成で SPARCstorage Array トレーをサービスから除く詳しい手順を示します。
haswitch(1M) コマンドを使用して、影響を受けた論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
取り外す SPARCstorage Array トレーに、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。後でディスクを停止する場合には、luxadm(1M) コマンドを使用します。この例では、haswitch(1M) コマンドで論理ホストを phys-hahost1 に切り替えることにより、phys-hahost2 が管理機能を実行できるようにしています。
影響を受けるすべての論理ホストで metastat(1M) コマンドを実行し、取り外されるトレー上のスライスを含むすべてのサブミラーを確認します。
phys-hahost1# metastat -s disksetname |
影響を受けるトレー上にコンポーネント (スライス) が存在するサブミラーの I/O を停止します。
この作業には、サブミラーをオフラインにする metaoffline(1M) コマンドを使用してください。metadetach(1M) コマンドでも I/O を停止できますが、同期をとり直す手間が増えます。
トレー上のサブミラーがオフラインになると、対応するミラーは片方向のミラー化だけを行うようになります。つまり、データの冗長性は確保されなくなります (3 重のミラーにはこの問題はありません)。ミラーをオンラインに戻すと、自動的に同期がとり直されます。
影響を受けるすべてのサブミラーがオフラインになっている間、トレーの I/O は停止します。
metadb(1M) コマンドを使用して、トレー上の複製を確認します。
トレーの交換時に使用できるように、metadb(1M) の出力を保存してください。
metahs(1M) コマンドを使用して、使用できるホットスペアデバイスと対応するサブミラーを確認します。
トレーの交換時に使用できるように、metahs(1M) の出力を保存してください。
NVRAM が有効な場合は、適切なコントローラ、トレー、ディスクに NVRAM データをフラッシュします。
phys-hahost1# luxadm sync_cache pathname |
NVRAM データがフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュについては、「NVRAM のフラッシュとパージ」を参照してください。
luxadm stop コマンドを使用して、トレーを停止します。
トレーのロックライトが消えた後、トレーを取り外し、必要な作業を行なってください。
phys-hahost1# luxadm stop c1 |
SPARCstorage Array トレーを取り外す前に、すべての I/O を停止し、トレー内のすべてのドライブを停止する必要があります。ドライブは I/O 要求が出されると自動的に起動するため、ドライブを停止する前にすべての I/O を停止する必要があります。
次に、SSVM 構成で SPARCstorage Array トレーをサービスから除く手順の概略を示します。
論理ホストをほかのクラスタノードに切り替える
影響を受けるトレー上の SSVM または CVM オブジェクトを確認する
影響を受けるトレーの I/O を停止する
NVRAM データをフラッシュする (NVRAM が有効になっている場合)
トレーを停止し、取り外す
SPARCstorage Array 全体が稼動している場合は、これらの手順をトレーごとに行う必要があります。
次に、SSVM 構成で SPARCstorage Array トレーを取り外す詳しい手順を示します。
haswitch(1M) コマンドを使用して、影響を受ける論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
取り外す SPARCstorage Array トレーに、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。後でディスクを停止する場合には、luxadm(1M) コマンドを使用します。この例では、haswitch(1M) コマンドで論理ホストを phys-hahost1 に切り替えることにより、phys-hahost2 が管理機能を実行できるようにしています。
取り外すトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
デバイスの物理アドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
たとえば、デバイスアドレスが c3t2d0 の場合、コントローラ番号は 3、ターゲット番号は 2 です。
vxdisk list の出力から、影響を受けるトレー上の SSVM または CVM デバイスを確認します。
ターゲット番号が 0 または 1 の場合、cNt0 と cNt1 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 2 または 3 の場合、cNt2 と cNt3 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 4 または 5 の場合、cNt4 と cNt5 から始まる物理アドレスを持つデバイスをすべて確認します。次に、vxdisk を使用して情報を取得する例を示します。
vxdisk -g diskgroup -q list | egrep c3t2¥|c3t3 | nawk '{print $3}' |
次のコマンドを使用して、上記のデバイス上のすべてのプレックスを確認します。
PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c3t2d0","c3t3d0","c3t3d1")) && (pl_kstate=ENABLED)' | nawk '{print $2}'` |
csh では、構文は set PLLIST .... .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。
変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。
トレーに対応したすべてのボリュームが切り離されたかどうか (ミラー構成または RAID5 構成の場合)、あるいは停止された (単純プレックスの場合) かどうかを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex det ${PLLIST} |
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex |
単純プレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、データベースアクセスを停止します。
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはアクティブなままです。
NVRAM が有効な場合は、適切なコントローラ、トレー、ディスクにNVRAM データをフラッシュします。NVRAM が無効な場合は、手順 5 に進んでください。
# luxadm sync_cache pathname |
NVRAM データがフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュについては、「NVRAM のフラッシュとパージ」を参照してください。
luxadm stop コマンドを使用して、トレーを停止します。
トレーのロックライトが消えた後、トレーを取り外し、必要な作業を行なってください。
# luxadm stop c1 |
次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを稼動状態に戻す手順の概略を示します。
ドライブを起動する
複製、サブミラー、ホットスペアをすべて復元する
各論理ホストをそれらのデフォルトマスターにスイッチバックする
SPARCstorage Array 全体がサービスの対象となっていた場合は、これらの作業をトレーごとに行う必要があります。
次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを稼動状態に戻す詳しい手順を示します。
SPARCstorage Array が除去されている場合は、SPARCstorage Array トレー内のドライブを起動します。除去されていなかった場合は、手順 3に進んでください。
SPARCstorage Array トレーの作業が完了した後、トレーをシャーシに戻してください。ディスクは、通常自動的に起動します。ディスクが起動しない場合は、luxadm(1M) start コマンドを実行し、トレー全体を手動で起動してください。SPARCstorage Array では、コマンドの呼び出しとドライブの起動の間にわずかな遅延 (数秒) があります。次の例では、c1 がコントローラ ID です。
phys-hahost1# luxadm start c1 |
このトレーのディスクから削除されたメタデバイス状態データベースの複製をすべて追加します。
「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の 手順 4 で保存した情報を使用して、メタデバイス状態データベースの複製を復元してください。
phys-hahost1# metadb -s hahost1 -a deleted-replicas |
同じスライスに複数の複製を追加するには、-c オプションを使用してください。
ディスクが起動した後、オフラインにしたサブミラーをすべてオンラインに戻します。
このトレーのディスクに該当する metaonline(1M) コマンドを使用してください。
phys-hahost1# metaonline -s hahost1 d15 d35 phys-hahost1# metaonline -s hahost1 d24 d54 ... |
metaonline(1M) コマンドの実行時に、最適化された再同期オペレーションがサブミラーを自動的に最新の状態にします。最適化された再同期オペレーションは、サブミラーがオフラインであった間に変更されたディスク領域だけコピーします。これは、通常、サブミラー容量のごく一部です。
metaonline(1M) は、すべてのサブミラーがオンラインに戻るまで必要な回数実行してください。
metaoffline(1M) ではなく metadetach(1M) コマンドを使用してサブミラーを切り離した場合は、metattach(1M) コマンドを使用してサブミラー全体の同期をとる必要があります。この作業は、通常、1G バイトのデータあたり約 10 分かかります。
SPARCstorage Array が取り外された時に削除されたホットスペアをすべて追加し直します。
ホットスペア構成に合わせて、適宜 metahs(1M) コマンドを使用してください。「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の 手順 5 で保存した情報を使用して、ホットスペアを交換してください。
phys-hahost1# metahs -s hahost1 -a hotsparepool cNtXdYsZ |
必要に応じて、各論理ホストをそのデフォルトマスターに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost2 |
次に、SSVM または CVM 構成で SPARCstorage Array トレーを稼動状態に戻す手順の概略を示します。
ドライブを起動する
SSVM または CVM オブジェクトを復元する
各論理ホストをそれらのデフォルトマスターにスイッチバックする
SPARCstorage Array 全体がサービスの対象となっていた場合は、これらの作業をトレーごとに行う必要があります。
次に、SSVM 構成で SPARCstorage Array トレーを稼動状態に戻す詳しい手順を示します。
SPARCstorage Array が除去されている場合は、SPARCstorage Array トレー内のドライブを起動します。除去されていない場合は、手順 2に進んでください。
SPARCstorage Array トレーの作業が完了した後、トレーをシャーシに戻してください。ディスクは、通常自動的に起動します。ディスクが起動しない場合は、luxadm(1M) start コマンドを実行し、トレー全体を手動で起動してください。SPARCstorage Array では、コマンドの呼び出しとドライブの起動の間にわずかな遅延 (数秒) があります。次の例では、c1 がコントローラ ID です。
phys-hahost1# luxadm start c1 |
ディスクが起動した後、ボリューム管理の回復を監視します。
先に影響を受けたトレー上のボリュームがオンラインに戻り始め、数分のうちにデータの再構築が自動的に始まります。必要に応じて、vxreattach と vxrecover コマンドを使用して、ディスクの再接続とエラー回復を行なってください。詳細は、それぞれのマニュアルページを参照してください。
切り離された DRL サブディスクは、手動で再接続する必要があります。
必要に応じて、各論理ホストをそのデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2 |
SPARCstorage Array には、Solaris に対してコントローラを識別するための固有の名称である WWN (World Wide Name)があります。そのため、SPARCstorage Array の障害によってコントローラまたはコントローラを含むシャーシ全体を交換する必要が生じた場合は、特別な作業が必要となります。
WWN は、SPARC マシンのホスト IDPROM に格納されているホスト ID に似ています。SPARCstorage Array の WWN の最後の 4 桁は、シャーシの LCD パネルに表示されます。WWN は、SPARCstorage Array とそのコンポーネントのドライブに対応する /devices パスの一部です。
SPARCstorage Array コントローラまたはシャーシ全体を交換する必要がある場合は、それらが再起動される時に Sun Cluster ノードは新しい WWN を見つけます。新しい WWN によって Sun Cluster ソフトウェアの上位レイヤーが混乱することを防ぐには、新しいコントローラの WWN を古いコントローラの WWN に変更する必要があります。これは、SPARC マシンのシステムボードを交換する場合に、IDPROM を置換するのに似ています。
WWN をどの方法で置換するかを決定するには、次の点を考慮してください。
「メンテナンスシステムを使用して SPARCstorage Array の WWN を変更するには」に示す方法は、クラスタノードを停止することなくコントローラを変更できる独立した保守用システムを使用します。
SPARCstorage Array が完全には故障していない場合や、何かほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに 「SPARCstorage Array トレーの管理」に示す手順を実行して、置換の準備を行なってください。続いて、「SPARCstorage Array の WWN を変更するには」に示す作業を実行してください。
SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意がされています。この場合は、「SPARCstorage Array の WWN を変更するには」に示す作業を実行できます。
ここでは、SPARCstorage Array コントローラを変更し、その WWN を障害の発生したコントローラの WWN に置き換える方法を説明します。この方法を使用すると、クラスタ内のノードを停止せずに SPARCstorage Array コントローラを交換できます。
この方法は、「保守用システム」(SPARCstorage Array をサポートできる任意の Sun アーキテクチャ) を使用します。保守用システムを使用することで、クラスタ内のノードを停止することなくこの作業を行えます。
保守用システムは、クラスタノードと同じバージョンの Solaris オペレーティング環境 (2.6 または 7) を読み込んでください。このシステムには、該当するすべてのパッチが必要です。また、CD-ROM ドライブ、Fibre Channel SBus Card (FC/S)、Fibre Channel Optical Module (FC/OM) も必要とします。このシステムの FCODE およびハードウェアリビジョンは、適切なものでなければなりません。保守用システムは、ネットワーク上のサーバーから起動することもできます。
保守用システムが使用できない場合は、クラスタノードの 1 つをこの目的で使用し、この作業の手順に従ってください。
次に、保守用システムを使用して SPARCstorage Array の WWN を変更する手順の概略を示します。
(省略可能) コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数デバイスを選択する
交換する SPARCstorage Array の WWN を取得する
光ケーブルを取り外し、コントローラまたは SPARCstorage Array を交換する
保守用システムから新しいコントローラに光ケーブルを接続する
Solaris CD から「mini-unix」を使用して保守用システムを起動する
元の WWN をダウンロードする
SPARCstorage Array をリセットする
メンテナンスシステムを停止する
SPARCstorage Array コントローラをクラスタノードに接続する
クラスタノードから、新しいコントローラのファームウェアレベルを調べる
(省略可能) 必要に応じて、クラスタノードから新しいコントローラのファームウェアをアップグレードする
SPARCstorage Array トレーをオンラインにし、ボリューム管理回復を行う
次に、保守用システムを使用して SPARCstorage Array の WWN を変更する詳しい手順を示します。
障害が発生した SPARCstorage Array コントローラが定足数コントローラの場合は、scconf(1M) コマンドを使用して新しい定足数コントローラを選択します。
詳細は、scconf(1M) のマニュアルページを参照してください。
SPARCstorage Array の WWN を確認します。
SPARCstorage Array の電源が落ちている場合は、次の方法で WWN を確認してください。
WWN は、12 桁の 16 進数で構成されています。これらの数字は、デバイスパスコンポーネントの一部として示されます。WWN は、pln@a0 という文字の後に続く最後の 12 桁 (コンマを除く) です。現在の WWN を確認するには、SPARCstorage Array に接続されているクラスタノードで、ls(1) コマンドを実行してください。
# ls -l /dev/rdsk/cNt0d0s0 ...SUNW,pln@a0000000,7412bf ... |
この例では、SPARCstorage Array の WWN は 0000007412bf です。デバイス名の中の変数 N は、故障した SPARCstorage Array のコントローラ番号を示します。文字列「t0d0s0」は、1 つの例です。SPARCstorage Array 上に存在するデバイス名を使用するか、すべてのデバイスを指定するように /dev/rdsk/cN* を使用してください。
SPARCstorage Array が稼動中の場合は、luxadm(1M) コマンドを使用して WWN を確認できます。
display オプションを指定して luxadm(1M) を実行し、コントローラを指定すると、SPARCstorage Array の情報がすべて表示されます。luxadm(1M) が示すシリアル番号が WWN です。
# /usr/sbin/luxadm display cN |
障害のある SPARCstorage Array コントローラから光ケーブルを外します。
障害のあるコントローラを交換します。
この手順を行うには、SPARCstorage Array のサービスマニュアル内の操作説明に従ってください。
SPARCstorage Array が完全には故障していない場合や、コントローラ障害以外のほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに 「SPARCstorage Array トレーの管理」で説明されている手順を実行して、交換の準備を行なってください。
SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意ができています。
保守用システムから新しいコントローラに光ケーブルを接続します。
保守用システムで OpenBoot PROM モードに入り、「mini-unix」を指定して起動します。
製品 CD (またはネットワーク上の同等プログラム) を使用して、メンテナンスシステムをシングルユーザーモードに設定し、新しい SPARCstorage Array の WWN を含むデバイス構造のメモリ内バージョンを取得します。
<#0> ok boot cdrom -s または <#0> ok boot netqe1 -s |
デバイス情報が永続的に変更されることを避けるために、「mini-unix」を使用してください。
luxadm download コマンドを実行して、WWN を設定します。
# /usr/sbin/luxadm -s -w WWN download cN |
WWN は、交換されるコントローラの 12 桁の WWN です。N は、デバイス名の cNtXdX に含まれるコントローラ番号です。WWN は、手順 2で取得したものです。
先頭のゼロは、合計 12 桁にするために WWN の一部として必ず入力する必要があります。
ダウンロード処理は中断しないでください。luxadm(1M) コマンドが終了し、シェルプロンプトが表示されるまで待ってください。
プロンプトが再表示された後、SPARCstorage Array をリセットします。
SPARCstorage Array のウィンドウに、新しいアドレスが表示されます。
保守用システムを停止します。
SPARCstorage Array コントローラをクラスタノードに再度接続します。
クラスタノードから、SPARCstorage Array のファームウェアレベルを調べます。
ファームウェアの現行バージョンを確認するには、luxadm(1M) コマンドを使用します。この場合は、luxadm(1M) コマンドに、コントローラ番号 (次の例の N) を指定してください。
# /usr/sbin/luxadm display cN |
システム上に古いファームウェアが検出されると、Solaris システムはコンソールと /var/adm/messages に次のようなメッセージを表示します。
NOTICE: pln0: Old SSA firmware has been detected (Ver:3.11) : Expected (Ver:3.12) - Please upgrade |
(省略可能) コントローラのファームウェアをアップグレードする場合は、次の手順に従います。
適切なファームウェアをダウンロードします。詳細は、ファームウェアパッチ内の README ファイルを参照してください。
# /usr/sbin/ssaadm download -f path/ssafirmware cN |
path は、ファームウェアが格納されているディレクトリのパスです。N は、コントローラ番号です。次に例を示します。
# /usr/sbin/ssaadm download -f /usr/lib/firmware/ssa/ssafirmware cN |
SPARCstorage Array にある「SYS OK」ボタンを押してリセットします。
再起動するまで少々時間がかかります。
手順 11を使用して、ファームウェアレベルを再度確認します。ファームウェアレベルまたは WWN が依然として不正な場合は、別のコントローラを使用して 手順 12を繰り返してください。
ボリュームマネージャの回復を開始します。
「SPARCstorage Array トレーの管理」を参照してください。SPARCstorage Array がすべてのノードでオンラインになり、かつそれらのノードからすべてのディスクが見えるようになるまで待ちます。
ルートディスクが SSVM または CVM によってカプセル化されているか、あるノードの起動ディスクがこの SPARCstorage Array に存在する場合は、この作業は行えません。このような場合には、「メンテナンスシステムを使用して SPARCstorage Array の WWN を変更するには」を行なってください。
定足数コントローラに障害が発生した場合は、ノードを停止する前に新しい定足数コントローラを選択する必要があります。
次に、SPARCstorage Array の WWN を変更する手順の概略を示します。
(省略可能) コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数デバイスを選択する
修復作業が行うノードまたは交換するコントローラから、論理ホストの所有権を移す
交換する SPARCstorage Array の WWN を取得する
コントローラまたは SPARCstorage Array を交換する
Sun Cluster ソフトウェアを停止し、そのディスクを所有していないノードを停止する
「mini-unix」を使用して、そのディスクを所有していないノードを起動する
新しい SPARCstorage Array のコントローラ番号を確認する
新しい WWN を設定し、SPARCstorage Array をリセットする
必要に応じてほかのクラスタノードを再起動する
ボリューム管理回復を行う
次に、SPARCstorage Array の WWN を変更する詳しい手順を示します。
障害が発生した SPARCstorage Array コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数コントローラを選択します。
詳細は、scconf(1M) のマニュアルページを参照してください。
修復する SPARCstorage Array に接続されているクラスタノードで、Sun Cluster ソフトウェアを停止し、続いてシステムを停止します。
scadmin(1M) コマンドを使用し、すべての論理ホストの所有権をクラスタ内のほかのノードに移し、Sun Cluster を停止してください。続いて、halt(1M) コマンドを実行してマシンを停止してください。
次の例では、phys-hahost2 が修復作業が行われるノードです。
phys-hahost2# scadmin stopnode ... phys-hahost2# halt |
故障した SPARCstorage Array の WWN を確認します。
SPARCstorage Array の電源が落ちている場合は、次の方法で WWN を確認してください。
WWN は、12 桁の 16 進数で構成されています。これらの数字は、デバイスパスコンポーネントの一部として示されます。WWN は、pln@a0 という文字の後に続く最後の 12 桁 (コンマを除く) です。現在の WWN を確認するには、SPARCstorage Array に接続されているクラスタノードで、ls(1) コマンドを実行してください。
# ls -l /dev/rdsk/cNt0d0s0 ...SUNW,pln@a0000000,7412bf ... |
この例では、SPARCstorage Array の WWN は 0000007412bf です。デバイス名の中の変数 N は、故障した SPARCstorage Array のコントローラ番号を示します。文字列「t0d0s0」は、1 つの例です。SPARCstorage Array 上に存在するデバイス名を使用するか、すべてのデバイスを指定するように /dev/rdsk/cN* を使用してください。
SPARCstorage Array が稼動中の場合は、luxadm(1M) コマンドを使用して WWN を確認できます。
display オプションを指定して luxadm(1M) を実行し、コントローラを指定すると、SPARCstorage Array の情報がすべて表示されます。luxadm(1M) が示すシリアル番号が WWN です。
phys-hahost1# /usr/sbin/luxadm display cN |
コントローラまたは SPARCstorage Array を交換します。
この手順を行うには、SPARCstorage Array のサービスマニュアル内の操作説明に従ってください。
SPARCstorage Array が完全には故障していない場合や、コントローラ障害以外のほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに 「SPARCstorage Array トレーの管理」で説明されている手順を実行して、交換の準備を行なってください。
SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意ができています。
停止されたノードで OpenBoot PROM モードに入り、「mini-unix」を指定して起動します。
製品 CD (またはネットワーク上の同等プログラム) を使用して、メンテナンスシステムをシングルユーザーモードに設定し、新しい SPARCstorage Array の WWN を含むデバイス構造のメモリ内バージョンを取得します。
<#0> ok boot cdrom -s または <#0> ok boot netqe1 -s |
デバイス情報が永続的に変更されることを避けるために、「mini-unix」を使用してください。
新しい SPARCstorage Array のコントローラ番号を確認します。
ls(1) コマンドと新しい SPARCstorage Array の LCD 画面に表示される 4 桁で、コントローラ番号を確認してください。
次の例では、LCD 画面に表示された 4 桁は 143b です。デバイス名 c*t0d0s0 はコントローラ番号のパターンマッチングを使用していますが、存在が明らかなスライスを指定しています。これは、出力される行の数を減らすためです。
# ls -l /dev/rdsk/c*t0d0s0 | grep -i 143b lrwxrwxrwx 1 root root 98 Mar 14 13:38 /dev/rdsk/c3t0d0s0 -> ../../devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@3,0/SUNW ,pln@a0000000,74143b/ssd@0,0:a,raw |
この例では、/dev/rdsk/c3... に示された 3 が「mini-unix」における新しい SPARCstorage Array のコントローラ番号です。
この LCD 画面内の 16 進数字は、大文字と小文字が混在した例です (文字 A、C、E、F は大文字、文字 b と d は小文字)。この例は、grep -i を使用して大文字と小文字の区別を無視しています。
luxadm download コマンドを実行して、WWN を設定します。
手順 6 で確認したコントローラ番号を使用してください。たとえば、次のコマンドは、WWN を現在の値から 手順 3 で確認した値 0000007412bf に変更します。SPARCstorage Array コントローラは、c3 です。
phys-hahost2# /usr/sbin/luxadm download -w 0000007412bf c3 |
先頭のゼロは、合計 12 桁にするために WWN の一部として必ず入力する必要があります。
ダウンロード処理は中断しないでください。luxadm(1M) コマンドが終了し、シェルプロンプトが表示されるまで待ってください。
SPARCstorage Array 装置にある「SYS OK」ボタンを押し、リセットします。
装置が再起動し、Sun Cluster ノードと通信を開始するまで少々時間がかかります。
「mini-unix」を終了し、通常どおりホストを起動します。
コンソールにブレークを送信し、マシンを起動してください。
クラスタノードから、SPARCstorage Array のファームウェアレベルを確認します。
ファームウェアの現行バージョンを確認するには、luxadm(1M) コマンドを使用します。この場合は、luxadm(1M) コマンドに、コントローラ番号 (次の例の N) を指定してください。
phys-hahost2# /usr/sbin/luxadm display cN |
システム上に古いファームウェアが検出されると、Solaris システムはコンソールと /var/adm/messages に次のようなメッセージを表示します。
NOTICE: pln0: Old SSA firmware has been detected (Ver:3.11) : Expected (Ver:3.12) - Please upgrade |
(省略可能) コントローラのファームウェアをアップグレードする場合は、次の手順に従います。
適切なファームウェアをダウンロードします。詳細は、ファームウェアパッチ内の README ファイルを参照してください。
# /usr/sbin/ssaadm download -f path/ssafirmware cN |
pathは、ファームウェアが格納されているディレクトリのパスです。N は、コントローラ番号です。次に例を示します。
# /usr/sbin/ssaadm download -f /usr/lib/firmware/ssa/ssafirmware cN |
SPARCstorage Array 装置にある「SYS OK」ボタンを押し、リセットします。
装置が再起動するまで少々時間がかかります。
ファームウェアレベルを再度確認します (手順 10を参照)。ファームウェアレベルまたは WWN が依然として不正な場合は、別のコントローラを使用して 手順 11を繰り返してください。
ノードを起動します。
phys-hahost2# scadmin startnode |
必要に応じて、論理ホストをデフォルトのマスターにスイッチバックします。
修復された SPARCstorage Array にボリュームマネージャコンポーネントを復元して、交換を完了します。
この方法は、「SPARCstorage Array トレーの管理」に示されています。
必要に応じて、クラスタ内のほかのノードを再起動します。
交換後 SPARCstorage Array 内のすべてのディスクを認識できないクラスタノードが存在する場合は、必要に応じてそれらを再起動してください。このためには、scadmin stopnode コマンドを使用して Sun Cluster の処理を停止し、その後再起動します。再起動後、必要に応じて論理ホストをそれらのデフォルトマスターにスイッチバックしてください。詳細は、scadmin(1M) マニュアルページを参照してください。
標準の Sun Cluster 管理の一環として、構成状態を監視することをお勧めします。監視方法の詳細は、第 2 章「Sun Cluster の管理ツール」を参照してください。監視処理で、多重ホストディスクの障害が発見される場合があります。この節では、この障害を解決する方法について説明します。
Sun Cluster は、次の SPARCstorage Array ディスクをサポートします。
Model 100 シリーズ
差動型トレーが搭載された Model 200 シリーズ
RSM (214 RSM) が搭載された Model 200 シリーズ
ディスクを追加するには、使用しているディスクの種類とディスク格納装置の電気的な特徴と機構上の特徴に応じて、特定のコントローラに接続されたすべてのディスク、特定のトレー内のすべてのディスク、または追加するディスクだけを用意します。たとえば、差動型 SCSI トレーが搭載された SPARCstorage Array 200 シリーズでは、SPARCstorage Array コントローラとディスク格納装置を用意する必要があります。RSM (214 RSM) が搭載された SPARCstorage Array 200 シリーズでは、新しいディスクだけを用意します。SPARCstorage Array 110 では、トレーを 1 つ用意します。
SPARCstorage Array 100 シリーズを使用している場合は、以下に説明されている手順に従ってください。差動型 SCSI トレーが搭載された SPARCstorage Array 200 シリーズを使用している場合は、新しいディスクに接続する SPARCstorage Array コントローラに接続されたすべてのディスクを停止する必要があります。つまり、新しいディスクに接続するアレイコントローラに接続されたすべてのディスク格納装置について、トレー固有の手順をすべて繰り返します。SPARCstorage Array 214 RSM を使用している場合は、個々のディスクドライブはほかのディスクに影響を与えずに設置が可能なため、トレー固有の手順を実行する必要はありません。
ディスク格納装置の詳細は、多重ホストディスク格納装置のハードウェアサービスマニュアルを参照してください。
SPARCstorage Array (SSA) の多重ホストディスクを追加するには、ディスク格納装置に応じて、影響を受けるディスクトレーまたはディスク格納装置内のすべてのボリュームマネージャオブジェクトをオフラインにします。ディスクトレーまたはディスク格納装置は、複数のディスクグループのディスクを搭載していることもあります。この場合は、影響を受けるディスクグループをすべて単一のノードが所有する必要があります。
次に、Solstice DiskSuite 構成で多重ホストディスクを追加する手順の概略を示します。
論理ホストをほかのクラスタノードに切り替える
新しいディスクのコントローラを確認し、トレーまたは格納装置内の空のスロットを見つける
Model 100 シリーズの SPARCstorage Array では、ディスクトレーを取り外すための用意をディスク格納装置で行う
ワイド差動型 SCSI ディスクトレーが搭載された Model 200 シリーズの SPARCstorage Array では、コントローラおよび接続されたすべてのディスクの電源を切る
影響を受けるドライブからすべてのホットスペアを削除する
影響を受けるドライブからすべてのメタデバイス状態データベースを削除する
影響を受けるドライブを含むすべてのメタデバイスをオフラインにする
影響を受けるすべてのドライブを停止する
新しいディスクを追加する
影響を受けるドライブを稼動状態に戻す
すべてのドライブを起動する
影響を受けるすべてのメタデバイスをオンラインに戻す
削除したホットスペアをすべて追加し直す
削除したメタデバイスをすべて作成し直す
ディスクを Sun Cluster で使用するための管理作業を行う
/devices 特殊ファイル、/dev/dsk リンク、/dev/rdsk リンクを作成する
scdidadm -r コマンドを実行する
ディスクをディスクセットに加える
必要に応じて、ディスクのフォーマットとパーティション分割を行う
ボリュームマネージャ関連の管理作業を行う
次に、Solstice DiskSuite 構成に新しい多重ホストディスクを追加する詳しい手順を示します。
新しいディスクを含む予定の論理ホストの所有権を、クラスタ内のほかのノードに切り替えます。
取り外すトレー内のディスクを含む論理ホストをすべてスイッチオーバーしてください。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
ディスクの追加先であるトレーのコントローラ番号を確認します。
SPARCstorage Array には、WWN が割り当てられています。SPARCstorage Array の LCD 画面に表示される WWN は、コントローラ番号が入った /dev エントリにポインタによってリンクされている /devices エントリの一部としても表示されます。次に例を示します。
phys-hahost1# ls -l /dev/rdsk | grep -i WWN | tail -1 |
SPARCstorage Array の LCD 画面に表示される WWN が 36cc の場合は、次の出力が表示されます。コントローラ番号は c2 です。
phys-hahost1# ls -l /dev/rdsk | grep -i 36cc | tail -1 lrwxrwxrwx 1 root root 94 Jun 25 22:39 c2t5d2s7 -> ../../devices/io- unit@f,e1200000/sbi@0,0/SUNW,soc@3,0/SUNW,pln@a0000800,201836cc/ ssd@5,2:h,raw |
display オプションを指定して luxadm(1M) コマンドを実行し、空のスロットを確認します。
phys-hahost1# luxadm display c2 SPARCstorage Array Configuration ... DEVICE STATUS TRAY 1 TRAY 2 TRAY 3 slot 1 Drive: 0,0 Drive: 2,0 Drive: 4,0 2 Drive: 0,1 Drive: 2,1 Drive: 4,1 3 NO SELECT NO SELECT NO SELECT 4 NO SELECT NO SELECT NO SELECT 5 NO SELECT NO SELECT NO SELECT 6 Drive: 1,0 Drive: 3,0 Drive: 5,0 7 Drive: 1,1 NO SELECT NO SELECT 8 NO SELECT NO SELECT NO SELECT 9 NO SELECT NO SELECT NO SELECT 10 NO SELECT NO SELECT NO SELECT ... |
空のスロットは、状態が NO SELECT で示されます。この出力例は、SPARCstorage Array 110 のものです。別のシリーズの SPARCstorage Array を使用している場合は、表示が多少異なります。
新しいディスクを追加するトレーを決定してください。SPARCstorage Array 214 RSM のようにほかのドライブに影響を与えずにディスクを追加できる場合は、手順 11 に進んでください。
これ以降の手順では、トレー 2 が例として使用されています。新しいディスク用に選択されるスロットは、トレー 2 のスロット 7 です。新しいディスクは、c2t3d1 として認識されます。
ディスクの追加によって影響を受けるホットスペアをすべて見つけます。
すべてのホットスペアの状態と位置を確認するには、各論理ホストで -i オプションを指定して metahs(1M) コマンドを実行します。
phys-hahost1# metahs -s hahost1 -i ... phys-hahost1# metahs -s hahost2 -i ... |
ホットスペアの一覧を保存してください。この一覧は、後でこの保守作業で使用します。ホットスペアデバイスとそれらのホットスペアプールは必ず書き留めてください。
-d オプションを指定して metahs(1M) コマンドを実行し、影響を受けるホットスペアを削除します。
metahs(1M) コマンドの詳細は、マニュアルページを参照してください。
phys-hahost1# metahs -s hahost1 -d hot-spare-pool components phys-hahost1# metahs -s hahost2 -d hot-spare-pool components |
影響を受けるディスク上に存在するメタデバイス状態データベースの複製をすべて見つけます。
各論理ホストで metadb(1M) コマンドを実行してすべてのメタデバイス状態データベースを見つけ、出力を一時ファイルに保存してください。
phys-hahost1# metadb -s hahost1 > /usr/tmp/mddb1 phys-hahost1# metadb -s hahost2 > /usr/tmp/mddb2 |
metadb(1M) の出力は、ディスク格納装置内のメタデバイス状態データベースの複製の位置を示します。複製を復元する手順で使用できるように、この情報を保存しておいてください。
影響を受けるディスク上に存在するメタデバイス状態データベースの複製を削除します。
後の手順で複製を復元する必要があるため、削除する複製の数とロケールを記録しておいてください。
phys-hahost1# metadb -s hahost1 -d replicas phys-hahost1# metadb -s hahost2 -d replicas |
metastat(1M) コマンドを実行し、影響を受けるディスク上のすべてのメタデバイスコンポーネントを確認します。
メタデバイスの削除と再追加を行う場合に情報を使用できるように、metastat(1M) の出力を一時ファイルに保存しておいてください。
phys-hahost1# metastat -s hahost1 > /usr/tmp/replicalog1 phys-hahost1# metastat -s hahost2 > /usr/tmp/replicalog2 |
影響を受けるディスクを含むすべてのサブミラーをオフラインにします。
ディスク格納装置内の影響を受けるすべてのサブミラーをオフラインにするため、一時ファイルを使用してスクリプトを作成してください。わずかなサブミラーしか存在しない場合は、metaoffline(1M) コマンドを実行し、個々にオフラインにしてください。次にスクリプト例を示します。
#!/bin/sh # metaoffline -s <diskset> <mirror> <submirror> metaoffline -s hahost1 d15 d35 metaoffline -s hahost2 d15 d35 ... |
luxadm(1M) コマンドを使用して、トレー内の SPARCstorage Array ディスクを停止してください。
phys-hahost1# luxadm stop -t 2 c2 |
新しいディスクを追加します。
多重ホストディスク格納装置のサービスマニュアルに示された方法で、ディスクを追加するためのハードウェア上の作業を行なってください。ディスクを追加した後、次のどちらかを選択してください。
SPARCstorage Array トレー内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c2 |
サブミラーをオンラインに戻します。
手順 9 で作成したスクリプトを変更し、サブミラーをオンラインに戻してください。
#!/bin/sh # metaonline -s <diskset> <mirror> <submirror> metaonline -s hahost1 d15 d35 metaonline -s hahost2 d15 d35 ... |
手順 5で削除したホットスペアを復元します。
phys-hahost1# metahs -s hahost1 -a hot-spare-pool components phys-hahost1# metahs -s hahost2 -a hot-spare-pool components |
本来の数のメタデバイス状態データベースの複製を、トレー内のデバイスに復元します。
複製は、手順 7 で削除されています。
phys-hahost1# metadb -s hahost1 -a replicas phys-hahost1# metadb -s hahost2 -a replicas |
drvconfig(1M) と disks(1M) コマンドを実行し、すべての新しいディスクの /devices、/dev/dsk、/dev/rdsk に新しいエントリを作成します。
phys-hahost1# drvconfig phys-hahost1# disks |
このディスクの追加先である論理ホストの所有権を、SPARCstorage Array に接続されているほかのノードに切り替えます。
これは、各ディスクが 2 つのノードに接続されるトポロジを想定しています。
phys-hahost1# haswitch phys-hahost2 hahost2 |
このディスクの追加先であるディスクセットを現在所有しているクラスタノードで、drvconfig(1M) と disks(1M) コマンドを実行します。
phys-hahost2# drvconfig phys-hahost2# disks |
scdidadm(1M) コマンドを実行し、新しいディスクが DID 疑似ドライバによって使用されるように初期化します。
scdidadm(1M) コマンドは、クラスタのノード 0 で実行する必要があります。DID 疑似ドライバの詳細は、『Sun Cluster 2.2 ソフトウェアのインストール』を参照してください。
phys-hahost2# scdidadm -r |
ディスクをディスクセットに追加します。
コマンド構文を次に示します。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -a drive |
metaset(1M) コマンドは、ディスクを自動的に再分割することがあります。詳細は、Solstice DiskSuite のマニュアルを参照してください。
scadmin(1M) コマンドを使用して、ディスクセットに追加した新しいディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost2# scadmin reserve cNtXdYsZ |
新しいディスクに対し、通常の管理作業を行います。
続いて、新しいドライブをサービスに加えるための通常の管理手順 (ディスクをパーティション分割する、ディスクをホットスペアとして構成に追加する、ディスクをメタデバイスとして構成するなど) を実行できます。これらの作業の詳細は、Solstice DiskSuite のマニュアルを参照してください。
必要に応じて、論理ホストをそのデフォルトマスターにスイッチバックします。
次に、SSVM または CVM 構成で多重ホストディスクを追加する手順の概略を示します。
論理ホストをほかのクラスタノードに切り替える
この新しいディスクのコントローラを確認し、トレーまたは格納装置内の空のスロットを見つける
Model 100 シリーズの SPARCstorage Array では、ディスクトレーを取り外すための用意をディスク格納装置で行う
ワイド差動型 SCSI ディスクトレーが搭載された Model 200 シリーズの SPARCstorage Array では、コントローラおよび接続されたすべてのディスクの電源を切る
影響を受けるトレー上の SSVM または CVM オブジェクトを確認する
影響を受けるトレー上にサブディスクを持つボリュームの I/O を停止する
新しいディスクを追加する
影響を受けるドライブをサービスに戻す
すべてのドライブを起動する
影響を受ける SSVM または CVM オブジェクトをオンラインに戻す
ディスクを Sun Cluster で使用するための管理作業を行う
/devices 特殊ファイル、/dev/dsk リンク、/dev/rdsk リンクを作成する
新しいディスクを走査する
ディスクをボリュームマネージャの制御下に加える
必要に応じて、ディスクのフォーマットとパーティション分割を行う
ボリュームマネージャ関連の管理作業を行う
次に、SSVM 構成に新しい多重ホストディスクを追加する詳しい手順を示します。
新しいディスクを含む予定の論理ホストの所有権を、クラスタ内のほかのノードに切り替えます。
取り外すトレー内のディスクを含む論理ホストをスイッチオーバーしてください。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
ミラー化された構成では、ノードが停止されていないかぎり論理ホストを切り替える必要はありません。
ディスクの追加先であるトレーのコントローラ番号を確認します。
SPARCstorage Array には、WWN が割り当てられています。SPARCstorage Array の LCD 画面に表示される WWN は、コントローラ番号が入った /dev エントリにポインタによってリンクされている /devices エントリの一部としても表示されます。次に例を示します。
phys-hahost1# ls -l /dev/rdsk | grep -i WWN | tail -1 |
SPARCstorage Array の LCD 画面に表示される WWN が 36cc の場合は、次の出力が表示されます。コントローラ番号は c2 です。
phys-hahost1# ls -l /dev/rdsk | grep -i 36cc | tail -1 lrwxrwxrwx 1 root root 94 Jun 25 22:39 c2t5d2s7 -> ../../devices/io- unit@f,e1200000/sbi@0,0/SUNW,soc@3,0/SUNW,pln@a0000800,201836cc/ ssd@5,2:h,raw phys-hahost1# |
display オプションを指定して luxadm(1M) コマンドを実行し、空のスロットを確認します。
ほかのドライブに影響を与えずにディスクを追加できる場合は、手順 11に進んでください。
phys-hahost1# luxadm display c2 SPARCstorage Array Configuration ... DEVICE STATUS TRAY 1 TRAY 2 TRAY 3 slot 1 Drive: 0,0 Drive: 2,0 Drive: 4,0 2 Drive: 0,1 Drive: 2,1 Drive: 4,1 3 NO SELECT NO SELECT NO SELECT 4 NO SELECT NO SELECT NO SELECT 5 NO SELECT NO SELECT NO SELECT 6 Drive: 1,0 Drive: 3,0 Drive: 5,0 7 Drive: 1,1 NO SELECT NO SELECT 8 NO SELECT NO SELECT NO SELECT 9 NO SELECT NO SELECT NO SELECT 10 NO SELECT NO SELECT NO SELECT ... |
空のスロットは、状態が NO SELECT で示されます。この出力例は、SPARCstorage Array 110 のものです。別のシリーズの SPARCstorage Array を使用している場合は、表示が多少異なります。
新しいディスクを追加するトレーを決定してください。
これ以降の手順では、トレー 2 が例として使用されています。新しいディスク用に選択されるスロットは、トレー 2 のスロット 7 です。新しいディスクは、c2t3d1 として認識されます。
新しいディスクが含まれるトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
物理デバイスアドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
この例では、コントローラ番号は 2 で、ターゲット番号は 3 です。
vxdisk list の出力から、デバイスを確認します。
次に、vxdisk を使用して情報を取得する例を示します。
# vxdisk -g diskgroup -q list | nawk '/^c2/ {print $3}' |
コマンドの出力から、ディスクのボリュームメディア名を記録しておきます。
次のコマンドの該当するバージョン (csh、ksh、または Bourne シェル) を使用して、上記のデバイス上のすべてのプレックスを確認します。
PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c2t3d0")) && (pl_kstate=ENABLED)' | nawk '{print $2}'` |
csh では、構文は set PLLIST .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。
変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。
トレーに対応したすべてのボリュームが切り離されたか (ミラー構成または RAID5 構成)、あるいは停止された (シンプルプレックス) ことを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex -g diskgroup det ${PLLIST} |
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex |
シンプルプレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、あるいはデータベースアクセスを停止します。
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはまだアクティブなままです。
新しいディスクを追加します。
多重ホストディスク格納装置のサービスマニュアルに示された方法で、ディスクを追加するためのハードウェア上の作業を行なってください。
SPARCstorage Array トレー内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c2 |
drvconfig(1M) と disks(1M) コマンドを実行し、すべての新しいディスクの /devices、/dev/dsk、/dev/rdsk に新しいエントリを作成します。
phys-hahost1# drvconfig phys-hahost1# disks |
SSVM の vxconfigd ドライバによって、新しいディスクの走査を行います。
phys-hahost1# vxdctl enable |
vxdiskadd コマンドを使用して、新しいディスクをボリュームマネージャの制御下に加えます。
新しいディスクに対し、通常の管理作業を行います。
新しいドライブをサービスに加える通常の管理手順 (ディスクをパーティション分割する、ディスクをホットスペアとして構成に追加する、ディスクをメタデバイスとして構成するなど) を実行できます。
以上で、既存の SPARCstorage Array に多重ホストディスクを追加する作業は終了です。
この節では、ボリュームマネージャによって次のような問題が報告された場合に、Sun Cluster サービスを中断することなく SPARCstorage Array (SSA) の多重ホストディスクを交換する方法 (オンライン交換) について説明します。
保守状態 (Needs Maintenance) のコンポーネント
ホットスペアの交換
断続的なディスクエラー
次に、Solstice DiskSuite 構成で、多重ホストディスクを交換する手順の概略を示します。この作業の手順の一部は、SPARCstorage Array 100 シリーズまたは 差動型 SCSI トレーを搭載した SPARCstorage Array 200 シリーズを使用した構成にだけ適用されます。
論理ホストをほかのクラスタノードに切り替える
交換する必要のあるディスクを確認する
交換する必要のあるディスクが含まれているトレーを確認する
(SSA と SSA 200 のみ) 影響を受けるトレーまたはディスク格納装置上のサブミラーを切り離す
(SSA 100 と SSA 200 のみ) 切り離したサブミラーで metaclear(1M) を実行する
(SSA 100 と SSA 200 のみ) 影響を受けるディスクトレー内の使用できるホットスペアを削除する
ディスクセットから障害のあるディスクを削除する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のディスクに存在する、影響を受けるすべてのメタデバイス状態データベースの複製を削除する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のメタデバイスの一覧を生成する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のサブミラー、またはトレー内のホットスペアを使用するサブミラーに対して、metaoffline(1M) を実行する
(SSA 100 と SSA 200 のみ) NVRAM が有効になっている場合はフラッシュする
ディスクを停止し、トレーまたはディスク格納装置を取り外す
ディスクドライブを交換する
scdidadm -R コマンドを実行する
ディスクセットに新しいディスクを追加する
新しいディスクに対してフェイルファストの予約と有効化を行う
新しいディスクをパーティション分割する
(SSA 100 と SSA 200 のみ) metaclear(1M) コマンドで消去したデバイスを、metainit(1M) コマンドを使用して初期化する
(SSA 100 と SSA 200 のみ) metaonline(1M) コマンドを実行して、オフラインのミラーをオンラインに戻し、再同期をとる
(SSA 100 と SSA 200 のみ) 切り離したサブミラーを接続する
(SSA 100 と SSA 200 のみ) 接続したサブミラー内で使用されているホットスペアを交換する
(SSA 100 と SSA 200 のみ) 削除したホットスペアデバイスを本来のホットスペアプールに戻す
metastat(1M) コマンドを実行して、障害が修復されたことを確認する
次に、Solstice DiskSuite 構成で、障害が発生した多重ホストディスクを交換する詳しい手順を示します。
haswitch(1M) コマンドを使用して、影響を受ける論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
障害が発生したディスクが含まれている SPARCstorage Array トレーには、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。
metastat(1M) と /var/adm/messages の出力を調べて、交換が必要なディスクを確認します。
デバイスが保守状態 (Needs Maintenance) にあるか、コンポーネントの一部がホットスペアに置き換わっていることが metastat(1M) によって報告された場合は、そのデバイスを見つけ、交換する必要があります。次に、metastat(1M) の出力例を示します。この例では、デバイス c3t3d4s0 がメンテナンス状態です。
phys-hahost1# metastat -s hahost1 ... d50:Submirror of hahost1/d40 State: Needs Maintenance Stripe 0: Device Start Block Dbase State Hot Spare c3t3d4s0 0 No Okay c3t5d4s0 ... |
/var/adm/messages を検査し、どのような問題が検出されたかを確認してください。
... Jun 1 16:15:26 host1 unix: WARNING: /io- unit@f,e1200000/sbi@0.0/SUNW,pln@a0000000,741022/ssd@3,4(ssd49): Jun 1 16:15:26 host1 unix: Error for command `write(I))' Err Jun 1 16:15:27 host1 unix: or Level: Fatal Jun 1 16:15:27 host1 unix: Requested Block 144004, Error Block: 715559 Jun 1 16:15:27 host1 unix: Sense Key: Media Error Jun 1 16:15:27 host1 unix: Vendor `CONNER': Jun 1 16:15:27 host1 unix: ASC=0x10(ID CRC or ECC error),ASCQ=0x0,FRU=0x15 ... |
luxadm(1M) コマンドを実行して、障害のあるディスクの位置を確認します。
luxadm(1M) コマンドは、トレーとトレーに対応するドライブの一覧を表示します。この出力は、SPARCstorage Array シリーズごとに異なります。次の例は、SPARCstorage Array 100 シリーズの出力です。この例では故障したドライブを、強調表示しています。
phys-hahost1# luxadm display c3 SPARCstorage Array Configuration Controller path: /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@ a0000000,779a16:ctlr DEVICE STATUS TRAY1 TRAY2 TRAY3 Slot 1 Drive:0,0 Drive:2,0 Drive:4,0 2 Drive:0,1 Drive:2,1 Drive:4,1 3 Drive:0,2 Drive:2,2 Drive:4,2 4 Drive:0,3 Drive:2,3 Drive:4,3 5 Drive:0,4 Drive:2,4 Drive:4,4 6 Drive:1,0 Drive:3,0 Drive:5,0 7 Drive:1,1 Drive:3,1 Drive:5,1 8 Drive:1,2 Drive:3,2 Drive:5,2 9 Drive:1,3 Drive:3,3 Drive:5,3 10 Drive:1,4 Drive:3,4 Drive:5,4 CONTROLLER STATUS Vendor: SUN Product ID: SSA110 Product Rev: 1.0 Firmware Rev: 3.9 Serial Num: 000000741022 Accumulate performance Statistics: Enabled |
交換するディスク上のコンポーネントを含むサブミラーを切り離します。
障害が発生したコンポーネントを含むサブミラーを切り離す場合は、metadetach -f コマンドを使用して切り離してください。次のコマンド例は、メタミラー d40 から サブミラー d50 を切り離します。
phys-hahost1# metadetach -s hahost1 -f d40 d50 |
metaclear(1M) コマンドを実行して、手順 4 で切り離されたサブミラーを消去します。
phys-hahost1# metaclear -s hahost1 -f d50 |
複製とホットスペアを削除する前に、位置 (スライス)、複製の数、ホットスペア情報 (デバイスの名前とホットスペアプールが入ったデバイスの一覧) を記録しておきます。これは、ディスクを交換した後で逆の作業を行えるようにするためです。
障害ディスクと同じトレーに存在する Available 状態のホットスペアをすべて削除します。
論理ホストの割り当てにかかわらず、すべてのホットスペアを削除してください。次の例では、metahs(1M) コマンドは hahost1 上のホットスペアを報告し、hahost2 にはホットスペアが存在しないことを示しています。
phys-hahost1# metahs -s hahost1 -i hahost1:hsp000 2 hot spares c1t4d0s0 Available 2026080 blocks c3t2d5s0 Available 2026080 blocks phys-hahost1# metahs -s hahost1 -d hsp000 c3t2d4s0 hahost1:hsp000: Hotspare is deleted phys-hahost1# metahs -s hahost2 -i phys-hahost1# hahost1:hsp000 1 hot spare c3t2d5s0 Available 2026080 blocks |
metaset(1M) コマンドを使用して、ディスクセットから障害が発生したディスクを削除します。
このコマンドの構文を次に示します。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -d drive |
この処理は、構成のサイズとディスクの数に応じて 15 分以上かかります。
サービスを受けるトレー内のディスクに存在するすべてのメタデバイス状態データベースの複製を削除します。
-s オプションを指定して metadb(1M) コマンドを実行すると、指定されたディスクセット内の複製が表示されます。
phys-hahost1# metadb -s hahost1 phys-hahost1# metadb -s hahost2 phys-hahost1# metadb -s hahost1 -d replicas-in-tray phys-hahost1# metadb -s hahost2 -d replicas-in-tray |
影響を受けるトレー内に存在するコンポーネントを使用するサブミラーを特定します。
1 つの方法として、metastat(1M) コマンドを使用して、すべてのメタデバイスの名前が入った一時ファイルを作成できます。次に例を示します。
phys-hahost1# metastat -s hahost1 > /usr/tmp/hahost1.stat phys-hahost1# metastat -s hahost2 > /usr/tmp/hahost2.stat |
これらのコンポーネント (この例では c3t3dn と c3t2dn) の一時ファイルを検索してください。一時ファイルの内容の例を次に示します。
... hahost1/d35: Submirror of hahost1/d15 State: Okay Hot Spare pool: hahost1/hsp100 Size: 2026080 blocks Stripe 0: Device Start Block Dbase State Hot Spare c3t3d3s0 0 No Okay hahost1/d54: Submirror of hahost1/d24 State: Okay Hot Spare pool: hahost1/hsp106 Size: 21168 blocks Stripe 0: Device Start Block Dbase State Hot Spare c3t3d3s6 0 No Okay ... |
影響を受けるトレー内のコンポーネントを持つほかのすべてのサブミラーをオフラインにします。
手順 10 の一時ファイルの出力を参照して、影響を受けるトレー内のすべてのサブミラーに対して metaoffline(1M) を実行します。
phys-hahost1# metaoffline -s hahost1 d15 d35 phys-hahost1# metaoffline -s hahost1 d24 d54 ... |
metaoffline(1M) は、すべてのサブミラーがオンラインになるまで必要な回数実行してください。このコマンドは、Solstice DiskSuite によるサブミラーコンポーネントの使用を停止します。
コントローラ、トレー、個々のディスク、または複数のディスクで NVRAM が有効になっている場合は、NVRAM をフラッシュします。
phys-hahost1# luxadm sync_cache pathname |
NVRAM がフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュの詳細は、「NVRAM のフラッシュとパージ」を参照してください。
影響を受ける SPARCstorage Array トレー内のすべてのディスクを停止します。
luxadm stop コマンドを使用して、ディスクを停止してください。詳細は、luxadm(1M) のマニュアルページを参照してください。
phys-hahost1# luxadm stop -t 2 c3 |
Solstice DiskSuite コマンドは、トレー内のドライブ (一部またはすべて) の起動に二次的な影響を与える可能性があります。そのため、SPARCstorage Array トレーが停止している間は、Solstice DiskSuite コマンドを実行しないでください。
ディスクを交換します。
この作業の詳細は、SPARCstorage Array のハードウェアサービスマニュアルを参照してください。
新しいデバイス ID を使用して、DID ドライバのデータベースを更新します。
-l フラグを指定して scdidadm(1M) を実行し、交換するドライブの低レベルデバイス名の DID 名を確認してください。次に、-R フラグを指定して scdidadm(1M) を実行し、DID ドライブデータベースを更新してください。DID 疑似ドライバの詳細は、『Sun Cluster 2.2 ソフトウェアのインストール』を参照してください。
phys-hahost1# scdidadm -o name -l /dev/rdsk/c3t3d4 6 phys-hahost1:/dev/rdsk/c3t3d4 /dev/did/rdsk/d6 phys-hahost1# scdidadm -R d6 |
影響を受ける多重ホストディスク格納装置内のすべてのディスクが起動していることを確認します。
多重ホストディスク格納装置内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c3 |
metaset(1M) コマンドを使用して、ディスクセットに新しいディスクを追加し直します。
この手順により、障害が発生したディスクから削除された数の複製が自動的に追加し直されます。コマンド構文は次のとおりです。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -a drive |
(省略可能) エラーが発生したディスクと同じトレーに存在したディスクからほかのディスクセットに属していた複製を削除した場合は、metadb(1M) コマンドを使用して複製を追加し直してください。
phys-hahost1# metadb -s hahost2 -a deleted-replicas |
同じスライスに複数の複製を追加するには、-c オプションを使用してください。
scadmin(1M) コマンドを使用して、ディスクセットに追加されたばかりのディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost2# scadmin reserve c3t3d4 |
format(1M) または fmthard(1M) コマンドを使用して、新しいディスクのパーティション分割を行います。
この場合は、交換されたディスクとまったく同じように分割してください (第 1 章「Sun Cluster の管理の準備」でディスクのフォーマット情報を保存するように推奨しています)。
metainit(1M) コマンドを使用して、手順 5 で消去したディスクの初期化を再度行います。
phys-hahost1# metainit -s hahost1 d50 |
手順 11でオフラインにしたサブミラーをすべてオンラインに戻します。
phys-hahost1# metaonline -s hahost1 d15 d35 phys-hahost1# metaonline -s hahost1 d24 d54 ... |
metaonline(1M) は、すべてのサブミラーがオンラインに戻るまで必要な回数実行してください。
サブミラーがオンラインに戻ると、Solstice DiskSuite はすべてのサブミラーの同期を自動的にとり直し、すべてのデータを最新の状態にします。
この時点で metastat(1M) コマンドを実行すると、影響を受けるトレーにコンポーネントが存在するすべてのメタデバイスの同期が取り直されていることが示されます。
手順 4で切り離したサブミラーを接続します。
この手順は、metattach(1M) コマンドを使用して行なってください。詳細は、metattach(1M) のマニュアルページを参照してください。
phys-hahost1# metattach -s hahost1 d40 d50 |
手順 23で接続したサブミラーで使用されているホットスペアを交換します。
サブミラーを切り離す前にサブミラーでホットスペアへの置き換えがあった場合は、この置き換えはサブミラーが再接続された後に有効になります。この手順は、ホットスペアを Available 状態に戻します。
phys-hahost1# metareplace -s hahost1 -e d40 c3t3d4s0 |
手順 7で削除したホットスペアをすべて復元します。
metahs(1M) コマンドを実行して、ホットスペアを追加し直してください。詳細は、metahs(1M) のマニュアルページを参照してください。
phys-hahost1# metahs -s hahost1 -a hsp000 c3t2d5s0 |
必要に応じて、論理ホストをそれらのデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2 |
交換によって問題が解決されたことを確認します。
phys-hahost1# metastat -s hahost1 |
SSVM または CVM 構成では、構成がミラー化されていれば、システムを停止せずに SPARCstorage Array ディスクを交換できます。
起動が可能な SPARCstorage Array 内のディスクを交換する必要がある場合は、ホストの起動ディスクが入った SSA トレーを取り外さないでください。この場合は、起動ディスクがそのトレー上に存在するホストを停止し、障害のあるディスクのサービスが始まる前にフェイルオーバーが有効になるように、残ったノードをクラスタソフトウェアによって再構成してください。詳細は、『SPARCstorage Array ユーザーマニュアル』を参照してください。
次に、SPARCstorage Array 100 シリーズを使用した SSVM 環境で多重ホストディスクを交換する手順の概略を示します。
障害のあるディスクが含まれるトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認する
障害のあるディスクのコントローラ番号とターゲット番号を確認する
vxdisk list コマンドを使用してトレー上のデバイスを確認する
影響を受けるトレー上のすべてのプレックスを確認する
影響を受けるトレー上のすべてのプレックスを切り離す
ディスクグループからディスクを削除する
トレー内のディスクを停止する
ディスクドライブを交換する
トレー内のドライブを起動する
新しいディスクドライブを初期化する
現在のディスク構成を走査する
ディスクグループに新しいディスクドライブを追加する
ボリュームの同期をとり直す
次に、SPARCstorage Array 100 シリーズディスクを使用した SSVM 環境で多重ホストディスクを交換する詳しい手順を示します。
交換するディスクが定足数デバイスの場合は、scconf -q コマンドを使用して定足数デバイスをほかのディスクに変更します。
障害のあるディスクが含まれているトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
物理デバイスアドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
たとえば、デバイスアドレスが c3t2d0 の場合、コントローラ番号は 3、ターゲット番号は 2 です。
vxdisk list の出力から、デバイスを確認します。
ターゲット番号が 0 または 1 の場合、cNt0 と cNt1 から始まる物理アドレスを持つデバイスをすべて確認します (N はコントローラ番号)。ターゲット番号が 2 または 3 の場合、cNt2 と cNt3 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 4 または 5 の場合、cNt4 と cNt5 から始まる物理アドレスを持つデバイスをすべて確認します。次に、vxdisk を使用して情報を取得する例を示します。
# vxdisk -g diskgroup-q list | egrep c3t2¥|c3t3 | nawk '{print $3}' |
コマンドの出力から、障害のあるディスクのボリュームメディア名を記録しておきます。
この名前は、手順 10 で必要になります。
次のコマンドの該当するバージョン (csh、ksh、または Bourne シェル) を使用して、上記のデバイス上のすべてのプレックスを確認します。
PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c3t2d0","c3t3d0","c3t3d1")) && (pl_kstate=ENABLED)' | nawk '{print $2}'` |
csh では、構文は set PLLIST .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。
変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。
トレーに対応したすべてのボリュームが切り離されたか (ミラー構成または RAID5 構成)、停止された (シンプルプレックス) ことを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex det ${PLLIST} |
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex |
シンプルプレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、あるいはデータベースアクセスを停止します。
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはまだアクティブなままです。
ディスクグループからディスクを削除します。
# vxdg -g diskgroup rmdisk diskname |
トレー内のディスクを停止します。
# luxadm stop -t tray controller |
障害のあるディスクを交換します。
ドライブを起動します。
# luxadm start -t tray controller |
新しいディスクを初期化します。
# vxdisksetup -i devicename |
現在のディスク構成をもう一度走査します。
クラスタ内のすべてのノードで、次のコマンドを入力してください。
# vxdctl enable # vxdisk -a online |
ディスクグループに新しいディスクを追加します。
device-media-name には、手順 2で記録したボリュームメディア名を指定します。
# vxdg -g diskgroup -k adddisk device-media-name=devicename |
ボリュームの同期をとり直します。
# vxrecover -g diskgroup -b -o |
NVRAM は、SPARCstorage Array の高速書き込み機能をサポートします。NVRAM を使用しない場合は、プログラムからの同時書き込み要求をディスクにコミットし、プログラムが肯定応答を受信した後でなければ、別の要求を出すことができません。NVRAM は、書き込み要求を非揮発性のメモリーに書き込み、定期的にそのデータをディスクにフラッシュします。データがいったん NVRAM に書き込まれると、データがディスクに書き込まれたかのように肯定応答がプログラムに返されます。このため、SPARCstorage Array を使用する書き込みの多いアプリケーションのパフォーマンスが高まります。
この節に示した各作業は、コマンド行インタフェースを使用します。しかし、Solstice DiskSuite 構成では、metatool グラフィカルユーザーインタフェースを使用して、ディスク、トレー、コントローラ用の NVRAM を管理することもできます。Solstice DiskSuite の詳細は、Solstice DiskSuite のマニュアルを参照してください。
この機能は注意して使用してください。NVRAM は、SPARCstorage Array を管理する強力な方法を提供します。これらの作業を実行する前に、データをバックアップしてください。
コントローラレベル - SPARCstorage Array 内のすべてのドライブに影響する
ドライブレベル - 個々のドライブに高速書き込みを設定する
トレーレベル - Solstice DiskSuite GUI を介する
高速書き込みを有効にすると、設定は電源をオフにするまで SPARCstorage Array の構成の一部として保存されます。
NVRAM のバッテリーが弱いか欠如している場合、あるいは故障している場合は、そのコントローラの高速書き込みは無効になります。
高速書き込みを有効にする前に、コントローラまたはディスクのすべての I/O を停止する必要があります。具体的には、ディスクセットの所有権の保守が行われる間に暗黙の I/O ストリームが存在するため、ディスクセットの所有権が解放済みであることを確認します。次に、すべての I/O を停止する方法を示します。
NVRAM を有効または無効にするには、luxadm(1M) コマンドを使用します。このコマンドの詳細は、luxadm(1M) のマニュアルページを参照してください。
CVM の場合は、NVRAM を無効にする必要があります。
次に、NVRAM を有効または無効にする手順の概略を示します。
すべてのデータの現在のバックアップが存在することを確認する
root 特権があることを確認する
NVRAM を有効または無効にするコントローラまたはディスクを確認する
デバイスのすべての I/O を停止する
NVRAM を有効または無効にする
デバイスを稼動状態に戻し、データの同期を取り直す
次に、NVRAM を有効または無効にする詳しい手順を示します。
NVRAM を有効または無効にするコントローラ、トレー、個々のディスクを確認します。
luxadm(1M) コマンドを使用して、特定のコントローラ、トレー、個々のディスクの情報を表示できます。たとえば、次のコマンドは、コントローラ c2 上のすべてのディスク情報を表示します。
phys-hahost1# luxadm display c2 SPARCstorage Array Configuration Controller path: /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@a0000000,779a16:ctlr DEVICE STATUS TRAY 1 TRAY 2 TRAY 3 slot 1 Drive: 0,0 Drive: 2,0 Drive: 4,0 2 Drive: 0,1 Drive: 2,1 Drive: 4,1 3 NO SELECT NO SELECT NO SELECT 4 NO SELECT NO SELECT NO SELECT 5 NO SELECT NO SELECT NO SELECT 6 Drive: 1,0 Drive: 3,0 Drive: 5,0 7 Drive: 1,1 NO SELECT NO SELECT 8 NO SELECT NO SELECT NO SELECT 9 NO SELECT NO SELECT NO SELECT 10 NO SELECT NO SELECT NO SELECT CONTROLLER STATUS ... |
影響を受けるデバイスの I/O をすべて停止します。
Solstice DiskSuite の場合:
コントローラまたはトレーについては、 「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。
コントローラまたは個々のディスクの高速書き込み権を有効または無効にします。
luxadm(1M) コマンド以下の 3 つのオプションのうちの 1 つを指定して実行してください。
-e は、すべての書き込みに対して高速書き込みを有効にします
-c は、同期書き込みにだけ高速書き込みを有効にします
-d は、高速書き込みを無効にします
次の例は、電源をオフにするまで NVRAM 構成を保存し、すべての書き込みに対して高速書き込みを有効にします。これらのオプションの詳細は、luxadm(1M) のマニュアルページを参照してください。
phys-hahost# luxadm fast_write -s -e pathname |
高速書き込みが有効になったことを示す確認メッセージが表示されます。
コンポーネントを Sun Cluster の通常の制御下に戻すために必要な手順を実行します。
Solstice DiskSuite の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (Solstice DiskSuite)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (SSVM または CVM)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。
luxadm sync_cache コマンドは、NVRAM からの未処理の書き込みをディスクドライブにフラッシュします。データのフラッシュ中にエラーが報告された場合は、luxadm purge コマンドを使用して、データをパージする必要があります。データをパージすると、NVRAM 内の未処理の書き込みがすべて「放棄」されます。
高速書き込みデータのパージは、データ消失を引き起こすことがあります。そのため、この処理はドライブに障害が発生した場合にだけ慎重に行なってください。
NVRAM バッテリーが弱いか欠如している場合、あるいは故障している場合は、NVRAM は動作せず、データは消失します。
次に、選択したコントローラ (とすべてのディスク) のすべての未処理の書き込み、または NVRAM からディスクへの個々の書き込みをフラッシュまたはパージする手順の概略を示します。
すべてのデータの現在のバックアップが存在することを確認する
root 特権があることを確認する
書き込みをフラッシュまたはパージするコントローラまたはディスクを確認する
すべての未処理の書き込みをフラッシュまたはパージする
デバイスの I/O をすべて停止する
デバイスを Sun Cluster のサービスに戻す
次に、NVRAM データをフラッシュまたはパージする詳しい手順を示します。
フラッシュまたはパージするコントローラまたは個々のディスクを確認します。
luxadm(1M) コマンドを使用して、特定のコントローラ、トレー、個々のディスクの情報を表示できます。たとえば、次のコマンドは、コントローラ c2 上のすべてのディスクの情報を表示します。
phys-hahost1# luxadm display c2 SPARCstorage Array Configuration Controller path: /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@a0000000,779a16:ctlr DEVICE STATUS TRAY 1 TRAY 2 TRAY 3 slot 1 Drive: 0,0 Drive: 2,0 Drive: 4,0 2 Drive: 0,1 Drive: 2,1 Drive: 4,1 3 NO SELECT NO SELECT NO SELECT 4 NO SELECT NO SELECT NO SELECT 5 NO SELECT NO SELECT NO SELECT 6 Drive: 1,0 Drive: 3,0 Drive: 5,0 7 Drive: 1,1 NO SELECT NO SELECT 8 NO SELECT NO SELECT NO SELECT 9 NO SELECT NO SELECT NO SELECT 10 NO SELECT NO SELECT NO SELECT CONTROLLER STATUS Vendor: SUN Product ID: SSA110 Product Rev: 1.0 Firmware Rev: 3.9 Serial Num: 000000779A16 Accumulate Performance Statistics: Enabled phys-hahost1# |
影響を受けるデバイスの I/O をすべて停止します。
Solstice DiskSuite の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。
コントローラ、トレー、個々のディスクの NVRAM をフラッシュまたはパージします。
SPARCstorage Array のドライブにアクセスできる場合は、NVRAM をフラッシュしてください。NVRAM のパージは、SPARCstorage Array またはディスクにアクセスできなくなった場合にだけ行なってください。
phys-hahost1# luxadm sync_cache pathname または phys-hahost1# luxadm purge pathname |
NVRAM がフラッシュまたはパージされたことを示す確認メッセージが表示されます
コンポーネントを Sun Cluster の通常の制御下に戻すために必要な手順を実行します。
Solstice DiskSuite の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (Solstice DiskSuite)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (SSVM または CVM)」の該当する手順を参照してください。
ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。
この章では、Sun StorEdgeTM MultiPack ディスクと Sun StorEdge D1000 ディスクの管理方法について説明します。この章に示す作業の一部は、使用されているボリューム管理ソフトウェア (Solstice DiskSuite、SSVM、CVM) によって異なります。ボリュームマネージャによって作業方法が異なる場合は、作業のタイトル名にボリュームマネージャ名が示されています。
この章で説明する手順は、次のとおりです。
「Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを追加するには」
「Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換するには (Solstice DiskSuite)」
「Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換するには (Solstice DiskSuite)」
「Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換するには (SSVM、CVM)」
「Sun StorEdge MultiPack 格納装置または Sun StorEdge D1000 格納装置を交換するには」
Sun Cluster 構成内のディスクハードウェアを交換または修復する場合は、Sun StorEdge MultiPack ディスクと Sun StorEdge D1000 ディスクのサービスマニュアル、およびボリューム管理ソフトウェアのマニュアルを参照してください。
Sun StorEdge MultiPack または Sun StorEdge D1000 が停電すると、I/O オペレーションはボリューム管理ソフトウェアによって検出されるエラーを生成します。これらのエラーは、ディスクに対して I/O トランザクションが行われるまでは報告されません。
これらのイベントについては、構成の監視が必要です。構成の監視については、第 2 章「Sun Cluster の管理ツール」を参照してください。
次に、Solstice DiskSuite 構成でディスク格納装置に電力損失が発生した場合の回復手順の概略を示します。
エラーが発生した複製を特定する
エラーが発生した複製をサービスに戻す
エラーが発生したデバイスを特定する
エラーが発生したデバイスをサービスに戻す
ディスクの同期をとり直す
次に、Solstice DiskSuite 構成でディスク格納装置に電力損失が発生した場合の詳しい回復手順を示します。
電力が戻った後で、metadb(1M) コマンドを実行してエラーが発生した複製を特定します。
# metadb -s diskset |
複製を稼動状態に戻します。
停電後、影響を受けたディスク格納装置のシャーシ上のすべてのメタデバイス状態データベースの複製がエラー状態になります。メタデバイス状態データベースの複製は自動回復しないため、ディスク格納装置がサービスに戻った直後に回復させるのが最も安全です。回復が遅れると障害がさらに発生し、複製のほとんどがサービス不能になり、カーネルの障害を引き起こす場合があります。これは、Solstice DiskSuite 構成で使用できる複製が少なすぎる場合によく起きる現象です。
エラーが発生したこれらの複製は次のテイクオーバー (haswitch(1M) または reboot(1M)) で修復されますが、これらを削除して追加し直すことにより手動で稼動状態に戻すこともできます。
各スライスで削除した複製と同じ数の複製を追加してください。複製は、metadb(1M) コマンドを 1 回実行することでまとめて削除できます。1 つのスライスに複製のコピーを複数格納する必要がある場合は、-c フラグを指定した metadb(1M) を 1 度呼び出し、まとめて追加します。
metstat(1M) コマンドを実行して、エラーが発生したメタデバイスを特定します。
# metastat -s diskset |
metareplace(1M) コマンドを使用して、エラーが発生したメタデバイスを稼動状態に戻します。これにより、ディスクの同期がとり直されます。
# metareplace -s diskset -e mirror component |
-e オプションは、コンポーネント (スライス) を Available 状態に変え、同期を取り直します。
ホットスペアに置き換えられているコンポーネントは、metareplace(1M) コマンドを使用して最後に交換してください。ホットスペアを最初に交換すると、ホットスペアが使用できる状態になったとたんに、エラーが発生したほかのサブミラーが交換される可能性があります。
一度に同期を取り直すことができるのは、サブミラー (メタデバイス) の 1 つのコンポーネントだけです。サブミラーのすべてのコンポーネントが停電の影響を受けた場合は、各コンポーネントを個々に交換する必要があります。1.05G バイトディスクの同期をとり直すには約 10 分かかります。
停電で複数のディスクセットが影響を受けた場合は、各ディスクセットの影響を受けたサブミラーの同期を同時にとり直すことができます。各ホストに個別にログインし、metareplace(1M) コマンドを各ホストで実行してホストのディスクセットを回復させてください。
サブミラーの数とサブミラー内のコンポーネントの数によっては、再同期に相当な時間がかかる場合があります。たとえば、コンポーネントが 5 つしかない管理が容易なサブミラーは、50 分ほどで完了する場合がありますが、1.05G バイトのドライブが 30 個あるようなサブミラーの場合は、完了までに約 5 時間かかる可能性があります。
停電が起きると、ディスクドライブが切り離されると同時に、プレックスが切り離されて使用できなくなります。ミラー化されていると、ボリューム内のほかのプレックスはそのまま使用できるため、ボリュームはアクティブに保たれます。クラスタ内のノードを停止せずにディスクドライブを再接続してこの状況を回復させることができます。
次に、SSVM 構成でディスク格納装置を電力損失から回復させる手順の概略を示します。
vxprint と vxdisk コマンドを使用して、エラーが発生したプレックスを確認する
電力損失の原因となった障害を修復する
drvconfig と disks コマンドを実行して、/devices と /dev エントリを作成する
現在のディスク構成を走査する
一時的な障害が発生したディスクを再接続する
障害がほかにないことを確認する
(省略可能) 共有ディスクグループでは、停電したディスクごとに vxdg コマンドを実行する
ボリュームの回復を開始する
次に、SSVM 構成でディスク格納装置を電力損失から回復させる詳しい手順を示します。
vxprint コマンドを実行して、エラーが発生したプレックスを表示します。
必要に応じて、-g diskgroup オプションを使用してディスクグループを指定してください。
vxdisk コマンドを実行して、エラーが発生したディスクを確認します。
# vxdisk list DEVICE TYPE DISK GROUP STATUS .. - - c1t5d0 toi failed was:c1t5d0s2 ... |
障害が発生したすべてのディスクに電力が戻るように、障害の原因を修復します。
修復を行う前に、ディスクが起動していることを確認してください。
クラスタ内のすべてのノードで、次のコマンドを入力します。
場合によっては、ノード別にドライブを確認し直す必要があります。
# drvconfig # disks |
クラスタ内のすべてのノードで、次のコマンドを入力します。
SSVM または CVM によって、現在のディスク構成の走査が再度行われます。
# vxdctl enable # vxdisk -a online |
クラスタ内のすべてのノードで、次のコマンドを入力します。
CVM では、まずマスターノードでこのコマンドを入力し、その後にスレーブノードで入力してください。
このコマンドにより、一時的な障害が発生していたディスクが接続し直されます。
# vxreattach -r |
vxdisk コマンドの出力を検証し、ほかにエラーがないかどうかを確認します。
# vxdisk list |
メディアを交換した場合は、切り離されたディスクごとにマスターノードから次のコマンドを入力します。
このコマンドにより、物理ディスクとそのディスクのボリュームマネージャのアクセス名が再結合されます。
# vxdg -g diskgroup -k adddisk medianame=accessname |
medianame と accessname の値が、vxdisk list コマンド出力の最後に表示されます。
次に例を示します。
# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2 # vxdg -g toi -k adddisk c1t5d1=c1t5d1s2 # vxdg -g toi -k adddisk c1t5d2=c1t5d2s2 # vxdg -g toi -k adddisk c1t5d3=c1t5d3s2 # vxdg -g toi -k adddisk c1t5d4=c1t5d4s2 |
ディスクの再接続には、vxdiskadm コマンドまたは GUI も使用できます。
ノードからボリュームの回復を開始します。
# vxrecover -bv [-g diskgroup] |
共有ディスクグループがある場合は、vxrecover -svc を使用します。
(省略可能) vxprint -g コマンドを実行して、変更を表示します。
この節では、Sun StorEdge MultiPack と Sun StorEdge D1000 のコンポーネントを管理する方法について説明します。障害が発生したコンポーネントを確認するには、サーバーのサービスのマニュアルを参照してください。
ディスク格納装置からクラスタノードの 1 つに対する接続が失敗した場合は、通常、SCSI-2 ケーブルまたは SBus カードに欠陥があります。
どのようなイベントにおいても、障害が発生したノードは、障害が発見された時点でエラーを生成し始めます。ディスク格納装置に対してその後アクセスがあると、さらにエラーが生成されます。ノードは、ディスク格納装置が停電したかのように動作します。
この種の障害は、クラスタ内のほかのノードからの I/O 操作には影響を与えません。
障害を診断するには、Sun Cluster ノードのサービスマニュアルに示されたカードモジュールのテスト作業を行い、障害が発生したコンポーネントを確認してください。ハードウェアの障害追跡を行うには、ノードの 1 つとダウンしていると思われるディスク格納装置を解放してください。
コンポーネントの交換ができるように Sun Cluster システムの準備を行います。
切断の原因にもとづいて、次に示す作業の 1 つを行なって Sun Cluster ノードの準備を行います。
障害が発生したコンポーネントが SBus カードの場合、第 7 章「サーバーコンポーネントの管理」を参照して Sun Cluster ノードの電源が落とせるように準備します。
問題が SCSI-2 ケーブルの欠陥にある場合は、ボリューム管理ソフトウェアによってすでにその問題をが検出され、ケーブルが交換できるようにシステムが準備されています。
障害が発生したコンポーネントを交換します。
SCSI-2 ケーブルまたは SBus カードに障害が発生した場合は、Sun Cluster ノードのサービスマニュアルで詳しい交換方法を確認してください。
ボリューム管理ソフトウェアをエラーから回復させます。
「電力損失からの回復」に示された作業を行なってください。
Sun StorEdge MultiPack と Sun StorEdge D1000 は、任意の時点で Sun Cluster 構成に追加できます。
ディスク格納装置を追加するには、あらかじめ Sun Cluster 構成内のディスクグループ構成を確認する必要があります。ディスク格納装置がディスクグループ構成に与える影響を調べるには、『Sun Cluster 2.2 ソフトウェアのインストール』の構成計画についての説明と、このマニュアルの付録 A 「ボリュームマネージャの管理」の説明を参照してください。
クラスタノードの 1 つを停止します。
「クラスタとクラスタノードの停止」の作業を行なって、ノードを停止してください。
必要に応じ、ノードに別の SBus カードを取り付けます。
Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従って、SBus カードを取り付けてください。
SBus カードは、ノード内のほかのカードに続くように、SBus スロットの最初の空きスロットに差し込んでください。これにより、Solaris オペレーティング環境が再インストールされる場合に、コントローラの番号付けがそのまま保たれます。詳細は、「インスタンス名と番号付け」を参照してください。
SCSI-2 ケーブルを、ディスク格納装置に接続します。
Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従ってください。
SCSI イニシエータ ID を適宜設定します。
Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従ってください。
ノードの再構成リブートを行います。
ok boot -r |
haswitch(1M) コマンドを実行して、制御可能なすべての論理ホストの所有権をリブートしたノードに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2 |
このディスク格納装置に接続されているほかのノードで、手順 5までを繰り返します。
必要に応じ、論理ホストの所有権を該当するデフォルトマスターにスイッチバックします。
次に例を示します。
phys-hahost1# haswitch phys-hahost2 hahost2 |
ディスク格納装置内のディスクを、選択されたディスクグループに追加します。
ボリュームマネージャのマニュアルに示された作業方法に従って、ディスクを選択されたディスクグループに追加してください。『Sun Cluster 2.2 ソフトウェアのインストール』の Solstice DiskSuite、SSVM、または CVM についての説明も参照してください。
標準の Sun Cluster 管理の一環として、構成状態を監視することをお勧めします。監視方法の詳細は、第 2 章「Sun Cluster の管理ツール」を参照してください。監視処理で、多重ホストディスクの障害が発見される場合があります。この節では、この障害を解決する方法について説明します。
Sun Cluster は、いくつかのディスクタイプをサポートします。多重ホストディスク拡張装置のハードウェアサービスマニュアルで、ディスク格納装置の説明を参照してください。
対称構成では、ディスク格納装置が複数のディスクグループのディスクを搭載していることもあります。この場合、影響を受けるディスクグループをすべて単一のノードが所有する必要があります。
次に、Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを追加する手順の概略を示します。
新しいディスクのコントローラを確認し、ディスク格納装置内の空のスロットを見つける
新しいディスクを追加する
ディスクを Sun Cluster で使用するための管理作業を行う
/devices 特殊ファイル、/dev/dsk リンク、/dev/rdsk リンクを作成する
ディスクをディスクセットに加える
必要に応じて、ディスクのフォーマットとパーティション分割を行う
ボリューム管理関連の管理作業を行う
次に、Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを追加する詳しい手順を示します。
ディスクの追加先であるディスク格納装置のコントローラ番号を確認します。
mount(1M) または format(1M) コマンドを使用して、コントローラ番号を確認してください。
ディスクを追加する、ディスク格納装置の空のディスクスロットを見つけます。
空のスロットは、ディスク格納装置の前面にあるディスクドライブ LED または装置の左側のカバーを外して確認できます。スロットに対応するターゲットアドレス ID が、ドライブベイの中央部分に示されています。
これ以降の手順では、トレー 2 が例として使用されています。新しいディスク用に選択されるスロットは、トレー 2 のスロット 7 です。新しいディスクは、c2t3d1 として認識されます。
新しいディスクを追加します。
ディスク格納装置のサービスマニュアルに示された方法で、ディスクを追加するためのハードウェア上の作業を行なってください。
drvconfig(1M) と disks(1M) コマンドを実行し、すべての新しいディスクの /devices、/dev/dsk、/dev/rdsk に新しいエントリを作成します。
phys-hahost1# drvconfig phys-hahost1# disks |
論理ホストの所有権を、このディスクの接続先であるほかのクラスタノードに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2 |
このディスクの追加先であるディスクグループを現在所有しているノードで、drvconfig(1M) と disks(1M) コマンドを実行します。
phys-hahost2# drvconfig phys-hahost2# disks |
ボリューム管理ソフトウェアを使用して、ディスクグループにディスクを追加します。
Solstice DiskSuite のコマンド構文は次のとおりです。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -a drive |
SSVM または CVM では、コマンド行インタフェースまたはグラフィカルユーザーインタフェースを使用してディスクグループにディスクを追加できます。
Solstice DiskSuite を使用している場合は、metaset(1M) コマンドによりディスクが自動的に再分割される場合があります。詳細は、Solstice DiskSuite のマニュアルを参照してください。
(Solstice DiskSuite 構成のみ) metaset(1M) コマンドを使用してディスクセットにディスクを追加した後、scadmin(1M) コマンドを使用して指定したディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost1# scadmin reserve drivename |
新しいディスクに対し、通常の管理作業を行います。
新しいドライブをサービスに加える場合に行う通常の管理手順を実行できます。これらの作業の詳細は、ボリューム管理ソフトウェアのマニュアルを参照してください。
必要に応じて、論理ホストをそのデフォルトマスターにスイッチバックします。
この節では、ボリュームマネージャによって次のような問題が報告された場合に、Sun Cluster サービスを中断することなく多重ホストディスクを交換する方法 (オンライン交換) について説明します。
保守状態 (Needs Maintenance のコンポーネント
ホットスペアの交換
断続的なディスクエラー
オフライン交換の方法については、ボリューム管理ソフトウェアのマニュアルを参照してください。
ディスクに 保守状態 (Needs Maintenance) のコンポーネントが存在する、ホットスペアがコンポーネントを交換した、あるいはディスクが断続的なエラーを生成していると判断した場合は、次の作業を行なってください。
次に、Solstice DiskSuite 環境で Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換する手順の概略を示します。
交換する必要のあるディスクを確認する
交換するディスクがどのディスク拡張装置に入っているか確認する
ディスクセットから障害のあるディスクを削除する
ディスクを停止し、ディスク格納装置を解放する
ディスクドライブを交換する
scdidadm -R コマンドを実行する
ディスクセットに新しいディスクを追加する
ディスクに対してフェイルファストの予約と有効化を行う
新しいディスクをパーティションに分割する
metastat(1M) コマンドを実行して、障害が修復されたことを確認する
次に、Solstice DiskSuite 環境で Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換する詳しい手順を示します。
この作業は、障害のあるディスクが含まれているディスクセットを制御するホストで行なってください。必要に応じて、haswitch(1M) コマンドを使用してディスクセットをスイッチオーバーしてください。
交換するディスクを確認します。
metastat(1M) コマンドと /var/adm/messages の出力を使用してください。
デバイスが保守状態にあるか、コンポーネントの一部がホットスペアに置き換わっていることを metastat(1M) が報告する場合は、そのデバイスを見つけ、交換する必要があります。次に、metastat(1M) の出力例を示します。この例では、デバイス c3t3d4s0 が保守状態 (Needs Maintenance) です。
phys-hahost1# metastat -s hahost1 ... d50:Submirror of hahost1/d40 State: Needs Maintenance Stripe 0: Device Start Block Dbase State Hot Spare c3t3d4s0 0 No Okay c3t5d4s0 ... |
/var/adm/messages を検査し、どのような問題が検出されたかを確認してください。
... Jun 1 16:15:26 host1 unix: WARNING: /io- unit@f,e1200000/sbi@0.0/SUNW,pln@a0000000,741022/ssd@3,4(ssd49): Jun 1 16:15:26 host1 unix: Error for command `write(I))' Err Jun 1 16:15:27 host1 unix: or Level: Fatal Jun 1 16:15:27 host1 unix: Requested Block 144004, Error Block: 715559 Jun 1 16:15:27 host1 unix: Sense Key: Media Error Jun 1 16:15:27 host1 unix: Vendor `CONNER': Jun 1 16:15:27 host1 unix: ASC=0x10(ID CRC or ECC error),ASCQ=0x0,FRU=0x15 ... |
障害のあるディスクを特定します。
mount(1M) コマンドまたは format(1M) コマンドを実行して、コントローラ番号を確認してください。
障害のあるディスクに複製が含まれる場合は、スライスと複製の数を記録してから複製を削除します。
metadb(1M) コマンドを実行して、複製を削除します。
交換するディスク上のコンポーネントを含んでいるサブミラーを切り離します。
障害が発生したコンポーネントを含むサブミラーを切り離す場合、metadetach -f コマンドを使用してください。次のコマンド例は、メタミラー d40 から サブミラー d50 を切り離します。
phys-hahost1# metadetach -s hahost1 -f d40 d50 |
metaclear(1M) コマンドを実行して、手順 5 で切り離されたサブミラーを消去します。
phys-hahost1# metaclear -s hahost1 -f d50 |
障害のあるディスクにホットスペアが含まれている場合は、デバイスの名前とホットスペアプールが入ったデバイスの一覧を記録し、その後ホットスペアを削除します。
metahs(1M) コマンドを実行してホットスペアを削除してください。
この情報は、オブジェクトを削除する前に記録してください。これは、ディスクを交換した後で逆の作業を行えるようにするためです。
metaset(1M) コマンドを使用して、ディスクセットから障害が発生したディスクを削除します。
このコマンドの構文を次に示します。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
phys-hahost1# metaset -s diskset -d drive |
この処理は、構成のサイズとディスクの数に応じて 15 分以上かかります。
障害のあるディスクを交換します。
この手順の詳細は、ディスク格納装置のハードウェアサービスマニュアルを参照してください。
新しいディスクが起動していることを確認します。
ディスクは、自動的に起動します。
新しいデバイス ID を使用して、DID ドライバのデータベースを更新します。
HA 1.3 からアップグレードした場合は、インストールは DID ドライバを使用しません。この場合、この手順を省略してください。
-l フラグを指定して scdidadm(1M) を実行し、交換されるドライブの低レベルデバイス名の DID 名を確認してください。続いて、-R フラグを指定して scdidadm(1M) を実行し、DID ドライブデータベースを更新してください。DID 疑似ドライバの詳細は、『Sun Cluster 2.2 ソフトウェアのインストール』を参照してください。
phys-hahost1# scdidadm -o name -l /dev/rdsk/c3t3d4 6 phys-hahost1:/dev/rdsk/c3t3d4 /dev/did/rdsk/d6 phys-hahost1# scdidadm -R d6 |
metaset(1M) コマンドを使用して、ディスクセットに新しいディスクを追加し直します。
この手順により、障害が発生したディスクから削除された正確な数の複製が自動的に追加し直されます。コマンド構文は次のとおりです。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
phys-hahost1# metaset -s diskset -a drive |
この処理は、構成のサイズとディスクの数に応じて 15 分以上かかります。
scadmin(1M) コマンドを使用して、ディスクセットに追加したディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost1# scadmin reserve c3t3d4 |
format(1M) または fmthard(1M) コマンドを実行して、新しいディスクの再分割を行います。
新しいディスクが、交換されたディスクとまったく同じになるように分割してください (第 1 章「Sun Cluster の管理の準備」でディスクのフォーマット情報を保存するように推奨しています)。
metainit(1M) コマンドを使用して、手順 6 で消去したディスクの初期化を再度行います。
phys-hahost1# metainit -s hahost1 d50 |
手順 5で切り離したサブミラーを接続します。
この手順を行うには、metattach(1M) コマンドを使用してください。詳細は、metattach(1M) のマニュアルページを参照してください。
phys-hahost1# metattach -s hahost1 d40 d50 |
手順 7で削除したホットスペアをすべて復元します。
metahs(1M) コマンドを実行して、ホットスペアを追加し直してください。詳細は、metahs(1M) のマニュアルページを参照してください。
phys-hahost1# metahs -s hahost1 -a hsp000 c3t2d5s0 |
交換によって問題が解決されたことを確認します。
phys-hahost1# metastat -s hahost1 |
次に、SSVM または CVM 環境で Sun StorEdge MultiPack ディスクまたは Sun StorEdge D1000 ディスクを交換する手順の概略を示します。
vxdiskadm コマンドを使用して、ディスク格納装置内の障害ディスクを削除する
障害ディスクを交換する
vxdiskadm コマンドを使用して、先に削除したディスクを置き換える
共有ディスクグループを使用していないシステムでは、マスターノードはディスクグループをインポートしたノードを意味します。
共有ディスクグループを使用している場合は、クラスタ内のすべてのノードで次のコマンドを入力し、マスターノードとスレーブノードを確認します。
# vxdctl -c mode |
以下の手順は、マスターノードから実行してください。
そのディスクに障害が発生し、NODEVICE 状態かどうかを確認します。
ディスクが NODEVICE 状態ではない場合は、手順 8に進んでください。
vxdiskadm ユーティリティを実行し、4 (交換を行うディスクを削除する) を入力します。
このオプションは、ディスク名を保持したまま物理ディスクを削除します。この後、交換するデバイスを尋ねられます。
ディスク名または list を入力します。
次に、ディスク c2t8d0 の削除例を示します。
Enter disk name [<disk>,list,q,?] list Disk group: rootdg DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c0t0d0s7 c0t0d0s7 simple 1024 20255 - Disk group: demo DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c1t2d0 c2t2d0s2 sliced 1519 4152640 - dm c1t3d0 c2t3d0s2 sliced 1519 4152640 - dm c1t4d0 c2t4d0s2 sliced 1519 4152640 - dm c1t5d0 c2t5d0s2 sliced 1519 4152640 - dm c1t8d0 c2t8d0s2 sliced 1519 4152640 - dm c1t9d0 c2t9d0s2 sliced 1519 4152640 - dm c2t2d0 c1t2d0s2 sliced 1519 4152640 - dm c2t3d0 c1t3d0s2 sliced 1519 4152640 - dm c2t4d0 c1t4d0s2 sliced 1519 4152640 - dm c2t5d0 c1t5d0s2 sliced 1519 4152640 - dm c2t8d0 c1t8d0s2 sliced 1519 4152640 - dm c2t9d0 c1t9d0s2 sliced 1519 4152640 - Enter disk name [<disk>,list,q,?] c2t8d0 The requested operation is to remove disk c2t8d0 from disk group demo. The disk name will be kept, along with any volumes using the disk, allowing replacement of the disk. Select "Replace a failed or removed disk" from the main menu when you wish to replace the disk. |
y を入力するか、Return キーを押して継続します。
Continue with operation? [y,n,q,?] (default: y) y Removal of disk c2t8d0 completed successfully. |
q を入力してユーティリティを終了します。
Remove another disk? [y,n,q,?] (default: n) q |
vxdisk list と vxprint を入力して、変更を表示します。
ディスク c2t8d0 が削除されていることがわかります。
# vxdisk list . c2t3d0s2 sliced c1t3d0 demo online shared c2t4d0s2 sliced c1t4d0 demo online shared c2t5d0s2 sliced c1t5d0 demo online shared c2t8d0s2 sliced c1t8d0 demo online shared c2t9d0s2 sliced c1t9d0 demo online shared - - c2t8d0 demo removed # vxprint . dm c2t3d0 c1t3d0s2 - 4152640 - - - - dm c2t4d0 c1t4d0s2 - 4152640 - - - - dm c2t5d0 c1t5d0s2 - 4152640 - - - - dm c2t8d0 - - - - REMOVED - - dm c2t9d0 c1t9d0s2 - 4152640 - - - - pl demo05-02 - DISABLED 51200 - REMOVED - - sd c2t8d0-1 demo05-02 DISABLED 51200 0 REMOVED - - . . . |
どのコンポーネントの電源も落とさずに、物理ドライブを交換します。
詳細は、ディスク格納装置装置に付属のマニュアルを参照してください。
ドライブを交換する間、システムコンソールに次のようなメッセージが表示される場合があります。このメッセージは障害を示さない場合があるため、無視してください。以下に示す交換作業に進んでください。
Nov 3 17:44:00 updb10a unix: WARNING: /sbus@1f,0/SUNW,fas@0,8800000/sd@2,0 (sd17): Nov 3 17:44:00 updb10a unix: SCSI transport failed: reason 'incomplete': ¥ retrying command Nov 3 17:44:03 updb10a unix: WARNING: /sbus@1f,0/SUNW,fas@0,8800000/sd@2,0 (sd17): Nov 3 17:44:03 updb10a unix: disk not responding to selection |
vxdiskadm ユーティリティを実行し、5 (障害が発生したディスクまたは削除されたディスクを交換する) を入力します。
ディスク名を入力します。
list を入力して、REMOVED 状態のディスクの一覧を表示できます。
ディスクに障害が発生していると、ディスクは NODEVICE 状態で示される場合があります。
Select a removed or failed disk [<disk>,list,q,?] list Disk group: rootdg DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE Disk group: demo DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c2t8d0 - - - - REMOVED Select a removed or failed disk [<disk>,list,q,?] c2t8d0 |
vxdiskadm ユーティリティによって、新しいデバイスが検出され、削除したデバイスを新しいデバイスに置き換えるかどうかが尋ねられます。
システムに接続されたディスクの中に未使用のものがある場合は、vxdiskadm はそれらも選択肢として示します。
デバイス名を入力するか、ユーティリティによってそのデバイスがデフォルトとして示されている場合は Return キーを押します。
The following devices are available as replacements: c1t8d0s2 You can choose one of these disks to replace c2t8d0. Choose "none" to initialize another disk to replace c2t8d0. Choose a device, or select "none" [<device>,none,q,?] (default: c1t8d0s2) <Return> The requested operation is to use the initialized device c1t8d0s2 to replace the removed or failed disk c2t8d0 in disk group demo. |
y を入力するか、Return キーを押して、そのデバイス (この例では c1t8d0s2) を交換ディスクとすることを確定します。
Continue with operation? [y,n,q,?] (default: y) <Return> Replacement of disk c2t8d0 in group demo with disk device c1t8d0s2 completed successfully. |
n を入力するか、Return キーを押して、ユーティリティを終了します。
Replace another disk? [y,n,q,?] (default: n) <Return> |
vxdisk list と vxprint を入力して、変更を確認します。
この例では、ディスク c2t8d0 は REMOVED 状態ではなくなっています。
# vxdisk list . c2t2d0s2 sliced c1t2d0 demo online shared c2t3d0s2 sliced c1t3d0 demo online shared c2t4d0s2 sliced c1t4d0 demo online shared c2t5d0s2 sliced c1t5d0 demo online shared c2t8d0s2 sliced c1t8d0 demo online shared c2t9d0s2 sliced c1t9d0 demo online shared # vxprint . dm c2t4d0 c1t4d0s2 - 4152640 - - - - dm c2t5d0 c1t5d0s2 - 4152640 - - - - dm c2t8d0 c1t8d0s2 - 4152640 - - - - dm c2t9d0 c1t9d0s2 - 4152640 - - - - . |
この節では、SSVM または CVM を使用する、Sun StorEdge MultiPack 格納装置または Sun StorEdge D1000 格納装置全体を交換する方法について説明します。
SSVM または CVM 構成で、障害が発生した Sun StorEdge MultiPack または Sun StorEdge D1000 全体を交換する手順の概略を示します。
vxdiskadm コマンドを使用して、障害のあるディスク格納装置内のディスクをすべて削除する
障害が発生したディスク格納装置を交換する
vxdiskadm コマンドを使用して、先に削除したディスクをすべて新しいディスク格納装置に置き換える
共有ディスクグループを使用していないシステムでは、マスターノードはディスクグループをインポートしたノードを意味します。
共有ディスクグループを使用している場合は、クラスタ内のすべてのノードで次のコマンドを入力し、マスターノードとスレーブノードを確認します。
# vxdctl -c mode |
以下の手順は、マスターノードから実行してください。
vxdiskadm ユーティリティを実行して 4 (交換を行うディスクを削除する) を入力することにより、障害が発生したディスク格納装置上のすべてのディスクを削除します。
このオプションでは、一度に 1 つのディスクしか削除できません。ディスクごとにこの作業を繰り返してください。
list コマンドを入力します。
次の例で、コントローラ c2 上のディスク格納装置を交換する必要があると想定します。この list 出力から、これらのディスクの SSVM 名または CVM 名は c2t2d0、c2t3d0、c2t4d0、c2t5d0、c2t8d0、c2t9d0 であることがわかります。
Remove a disk for replacement Menu: VolumeManager/Disk/RemoveForReplace Use this menu operation to remove a physical disk from a disk group, while retaining the disk name. This changes the state for the disk name to a "removed" disk. If there are any initialized disks that are not part of a disk group, you will be given the option of using one of these disks as a replacement. Enter disk name [<disk>,list,q,?] list Disk group: rootdg DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c0t0d0s7 c0t0d0s7 simple 1024 20255 - Disk group: demo DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c1t2d0 c2t2d0s2 sliced 1519 4152640 - dm c1t3d0 c2t3d0s2 sliced 1519 4152640 - dm c1t4d0 c2t4d0s2 sliced 1519 4152640 - dm c1t5d0 c2t5d0s2 sliced 1519 4152640 - dm c1t8d0 c2t8d0s2 sliced 1519 4152640 - dm c1t9d0 c2t9d0s2 sliced 1519 4152640 - dm c2t2d0 c1t2d0s2 sliced 1519 4152640 - dm c2t3d0 c1t3d0s2 sliced 1519 4152640 - dm c2t4d0 c1t4d0s2 sliced 1519 4152640 - dm c2t5d0 c1t5d0s2 sliced 1519 4152640 - dm c2t8d0 c1t8d0s2 sliced 1519 4152640 - dm c2t9d0 c1t9d0s2 sliced 1519 4152640 - |
ディスク名を入力します (この例では c2t2d0)。
Enter disk name [<disk>,list,q,?] c2t2d0 The following volumes will lose mirrors as a result of this operation: demo-1 No data on these volumes will be lost. The requested operation is to remove disk c2t2d0 from disk group demo. The disk name will be kept, along with any volumes using the disk, allowing replacement of the disk. Select "Replace a failed or removed disk" from the main menu when you wish to replace the disk. |
y を入力するか、Return キーを押して、そのディスクを交換することを確定します。
Continue with operation? [y,n,q,?] (default: y) <Return> Removal of disk c2t2d0 completed successfully. |
y を入力して継続します。
Remove another disk? [y,n,q,?] (default: n) y Remove a disk for replacement Menu: VolumeManager/Disk/RemoveForReplace Use this menu operation to remove a physical disk from a disk group, while retaining the disk name. This changes the state for the disk name to a "removed" disk. If there are any initialized disks that are not part of a disk group, you will be given the option of using one of these disks as a replacement. |
次のサンプルディスク名 c2t3d0 を入力します。
Enter disk name [<disk>,list,q,?] c2t3d0 The following volumes will lose mirrors as a result of this operation: demo-2 No data on these volumes will be lost. The following devices are available as replacements: c1t2d0 You can choose one of these disks now, to replace c2t3d0. Select "none" if you do not wish to select a replacement disk. |
必要に応じて、none を入力します。
この質問は、ユーティリティがシステム内に欠陥のないディスクを発見するたびに表示されます。欠陥のないディスクが存在しない場合、この質問は表示されません。
Choose a device, or select "none" [<device>,none,q,?] (default: c1t2d0) none |
y を入力するか、Return キーを押して、そのディスクを削除することを確定します。
The requested operation is to remove disk c2t3d0 from disk group demo. The disk name will be kept, along with any volumes using the disk, allowing replacement of the disk. Select "Replace a failed or removed disk" from the main menu when you wish to replace the disk. Continue with operation? [y,n,q,?] (default: y) <Return> Removal of disk c2t3d0 completed successfully. |
ディスク格納装置の電源を切り、交換します。
詳細は、ディスク格納装置のマニュアルを参照してください。
ディスク格納装置を交換する間、システムコンソールに次のようなメッセージが表示される場合があります。このメッセージは障害を示さない場合があるため、無視してください。以下に示す交換作業に進んでください。
Nov 3 17:44:00 updb10a unix: WARNING: /sbus@1f,0/SUNW,fas@0,8800000/sd@2,0 (sd17): Nov 3 17:44:00 updb10a unix: SCSI transport failed: reason 'incomplete': ¥ retrying command Nov 3 17:44:03 updb10a unix: WARNING: /sbus@1f,0/SUNW,fas@0,8800000/sd@2,0 (sd17): Nov 3 17:44:03 updb10a unix: disk not responding to selection |
ディスク格納装置に電源を入れます。
詳細は、ディスク格納装置のサービスマニュアルを参照してください。
vxdiskadm ユーティリティを実行し、5 (障害が発生したディスクまたは削除されたディスクを交換する) を入力して、先に削除されているディスクをすべて接続します。
このオプションでは、一度に 1 つのディスクしか交換できません。ディスクごとにこの作業を繰り返してください。
list コマンドを入力して、各ディスク名が現在 REMOVED 状態であることを確認します。
Replace a failed or removed disk Menu: VolumeManager/Disk/ReplaceDisk Use this menu operation to specify a replacement disk for a disk that you removed with the "Remove a disk for replacement" menu operation, or that failed during use. You will be prompted for a disk name to replace and a disk device to use as a replacement. You can choose an uninitialized disk, in which case the disk will be initialized, or you can choose a disk that you have already initialized using the Add or initialize a disk menu operation. Select a removed or failed disk [<disk>,list,q,?] list Disk group: rootdg DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE Disk group: demo DM NAME DEVICE TYPE PRIVLEN PUBLEN STATE dm c2t2d0 - - - - REMOVED dm c2t3d0 - - - - REMOVED dm c2t4d0 - - - - REMOVED dm c2t5d0 - - - - REMOVED dm c2t8d0 - - - - REMOVED dm c2t9d0 - - - - REMOVED |
ディスク名を入力します (この例では c2t2d0)。
Select a removed or failed disk [<disk>,list,q,?] c2t2d0 The following devices are available as replacements: c1t2d0s2 c1t3d0s2 c1t4d0s2 c1t5d0s2 c1t8d0s2 c1t9d0s2 |
vxdiskadm ユーティリティによって、新しいデバイスが検出され、削除したデバイスを新しいデバイスに置き換えるかどうかが尋ねられます。
デバイス名を入力するか、ユーティリティがそのデバイスをデフォルトとして示す場合は Return キーを押します。
You can choose one of these disks to replace c2t2d0. Choose "none" to initialize another disk to replace c2t2d0. Choose a device, or select "none" [<device>,none,q,?] (default: c1t2d0s2) <Return> |
y を入力するか、あるいは Return キーを押して、そのデバイス (この例では c1t2d0s2) を交換ディスクとすることを確定します。
The requested operation is to use the initialized device c1t2d0s2 to replace the removed or failed disk c2t2d0 in disk group demo. Continue with operation? [y,n,q,?] (default: y) <Return> Replacement of disk c2t2d0 in group demo with disk device c1t2d0s2 completed successfully. |
y を入力して継続します。
Replace another disk? [y,n,q,?] (default: n) y |
この章では、Sun Cluster 構成に含まれる Sun StorEdge A3x00 と Sun StorEdge A1000 の拡張装置とディスクの管理方法について説明します。これらの拡張装置は、どちらも RAID5 ハードウェアをサポートします。Sun StorEdge A3x00 には RAID5 コントローラが 2 つ、Sun StorEdge A1000 には 1 つあります。管理作業のほとんどは、両方の拡張装置で共通しています。
この章で説明する手順は次のとおりです。
Sun Cluster 構成でディスクの交換または修復を行う場合は、Sun StorEdge A3x00 ディスクまたは Sun StorEdge A1000 ディスクのサービスマニュアルと、ボリューム管理ソフトウェアのマニュアルを参照してください。
Sun StorEdge A3x00 と Sun StorEdge A1000 のディスク拡張装置には、冗長電源シーケンサが入っています。各電源シーケンサは、拡張装置のコンポーネントの半分に電力を供給します。そのため、これらの電源の一方で電力損失が発生してもシステムの使用には影響がありません。コントローラモジュールは、冗長電源を使用しています。そのため、コントローラモジュールの一方の電源が停電した場合でも、システムの使用には影響がありません。
ディスク拡張装置全体が停電した場合、Sun Cluster は回復のための特別な作業を必要としません。ディスク拡張装置のサービスマニュアルに示された方法に従って、それらを稼動状態に戻してください。
Sun StorEdge A3x00 または Sun StorEdge A1000 に複数のディスクが搭載されていても、Sun Cluster ソフトウェアには信頼性の高い単一のディスクとして認識されます。ほとんどのサービス作業は、Sun StorEdge RAID Manager ソフトウェアを使用して行えます。しかし、ノードと SCSI バス間のインタフェースカード (UDWIS カード) を切り離す必要が生じた場合は、この節の方法を使用してください。これらの方法は、UDWIS カードの変更やノードシステムボードの交換に使用してください。
haswitch(1M) コマンドを使用して、サービス対象の Sun Cluster ノードから論理ホストをすべて移動させます。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2 |
ハードウェアサービスに関わる SCSI バスの動作を停止します。
Sun StorEdge A3x00 または Sun StorEdge A1000 に使用される両方の SCSI バスが共通ボードに存在する構成では、一方のバスを選択してこの手順を実行してください。このボードに複数の拡張装置が接続されている場合は、各拡張装置上の 1 つのバスを同時に準備できます。UDWIS カードだけを交換すればよい場合は、ほかの拡張装置は接続したままにしておけます。
この手順は、RAID Manager ソフトウェアの Maintenance/Tuning アプリケーションを使用して行なってください。
ディスク拡張装置の末端部で、停止した各 SCSI バスケーブルを取り外し、適切なターミネータを取り付けます。
拡張装置に使用されているもう一方の SCSI バスもこのボードに接続されていて、システムボードや I/O ボードの交換などのためにこのバスも除去しなければならない場合は、すべての I/O の経路を最初の SCSI バス (この手順で終端したバス) に設定してください。拡張装置の末端部で SCSI ケーブルを取り外し、終端してください。
以上で、システムボードまたは I/O ボードのサービスの用意が整います。
用意した UDWIS カードから SCSI ケーブルを切り離し、必要なハードウェアサービス作業を行います。この作業が終了した後、以下の手順に従って本来の接続を確立し直します。このノードを停止したまま (電源を落としたまま) 継続してください。
必要に応じて、再接続が必要な拡張装置ごとに SCSI バスを 1 つ停止します。
これらの接続のターミネータを取り外します。
これは、手順 3 で取り付けたターミネータです。
拡張装置と UDWIS カード間で SCSI ケーブルを接続し直します。
この作業によって拡張装置に対する別の SCSI 接続が影響を受けた場合は、すべての I/O の経路を新しく接続し直した SCSI バスに設定し、ターミネータを取り外します。その後で拡張装置と UDWIS カード間のケーブルを接続し直します。
このノードを起動します。
RAID Manager ソフトウェアを使用して、論理ユニット (LUN) の分布を標準の構成に戻します。
haswitch(1M) コマンドを使用して、サービスを受けていた haswitch(1M) ノードにすべての論理ホストを戻します。
phys-hahost1# haswitch phys-hahost1 hahost1 |
この節では、Sun StorEdge A3x00 または Sun StorEdge A1000 の拡張装置を追加するための作業について説明します。これらの作業は、Sun Cluster を稼動させたまま行えます。
拡張装置内のファームウェアをアップグレードする方法については、システムのハードウェアサービスマニュアルを参照してください。
すべての論理ホストを、新しい格納装置を使用するクラスタ内の Sun Cluster ノードの 1 つにスイッチオーバーします。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2 |
マスターする論理ホストがなくなったノードで、Sun Cluster を停止します。
phys-hahost1# scadmin stopnode |
Sun Cluster ノードにディスクインタフェースカード (UDWIS) を追加します。
UDWIS インタフェースカードに付属している説明書を参照してください。
UDWIS カードをディスク格納装置に接続します。
新しい UDWIS カードが入ったノードで、再構成再起動を行います。
phys-hahost1# boot -r |
このノードで Sun Cluster を起動します。
phys-hahost1# scadmin startnode |
論理ホストをクラスタ内の別のノードにスイッチオーバーします。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2 |
クラスタにディスクサブシステムを組み込みます。
拡張装置と SSVM または CVM のマニュアルを参照して、ディスク構成を設定してください。
両方のノードで haswitch(1M) コマンドを実行し、新しい構成を Sun Cluster に組み込みます。
# haswitch -r |
Sun Cluster における Sun StorEdge A3x00 ディスクまたは Sun StorEdge A1000 ディスクの管理方法は、クラスタ化されていないノードで使用されているこれらのディスクの場合とまったく同じです。ディスク拡張装置内のディスクまたはディスクコンポーネントの追加や交換、修復の方法などについては、拡張装置のマニュアルを参照してください。
Sun StorEdge A3x00 または Sun StorEdge A1000 にドライブを追加する場合、システムを稼動させたまま追加してください。システムは再起動しないでください。再起動が行われると、新しいドライブの構成情報が消失する上、既存のドライブのデータと論理ユニット (LUN) 構成も消失します。
ドライブを追加してシステムを再起動した後に、以前に潜在していた LUN が見つからないという問題が発生した場合は、新しく追加したドライブを削除してシステムを再起動し、その後でドライブを一度に 1 つずつ追加してください。
稼動中のシステムの「使用されていない」ディスクグループにドライブを追加する場合は、ドライブを追加した後にシステムを再起動しても安全であり、上記のような問題は発生しません。ホットプラグは Sun StorEdge A3x00 と Sun StorEdge A1000 でサポートされているため、このような方法をとることができます。
Sun Cluster は、Sun StorEdge A3x00 ディスクまたは Sun StorEdge A1000 ディスクを、物理ディスクではなく論理ユニット (LUN) として認識します。そのため、 以下が適用されます。
LUN が使用できるかぎり、障害が発生した物理ディスクを交換する際に特別な作業は不要です。
LUN が使用できず (あるいは LUN が最適な状態にない)、その LUN が定足数デバイスとして使用さている場合は、ディスクの交換作業に取りかかる前に scconf -q コマンドを使用して定足数デバイスをほかの LUN (ディスク) に変更する必要があります。
論理ユニットと物理ディスクの詳細は、拡張装置のマニュアルを参照してください。
この章では、Sun StorEdge A5000 ディスクの管理方法について説明します。
この章で説明する手順は次のとおりです。
Sun Cluster 構成で ディスクハードウェアを交換または修復する場合は、Sun StorEdge A5000 ディスクのサービスマニュアルとボリューム管理ソフトウェアのマニュアルを参照してください。
Sun StorEdge A5000 の 1 台が停電すると、入出力オペレーションはボリューム管理ソフトウェアによって検出されるエラーを生成します。これらのエラーは、そのディスクに対して入出力トランザクションが行われるまでは報告されません。
これらのイベントについては、第 2 章「Sun Cluster の管理ツール」で説明しているコマンドを使用して構成を監視する必要があります。
次に、Solstice DiskSuite 環境でディスク格納装置に電力損失が発生した場合の回復手順の概略を示します。
エラーが発生した複製を確認 (特定) する
エラーが発生した複製を稼動状態に戻す
エラーが発生したデバイスを確認する
エラーが発生したデバイスを稼動状態に戻す
ディスクの同期をとり直す
次に、Solstice DiskSuite 環境でディスク格納装置に電力損失が発生した場合の詳しい回復手順を示します。
電力が戻った時点で、metadb(1M) コマンドを実行してエラーが発生した複製を確認します。
# metadb -s diskset |
複製を稼動状態に戻します。
停電後、影響を受けたディスク格納装置上のすべてのメタデバイス状態データベース複製がエラー状態になります。メタデバイス状態データベースの複製は自動回復しないため、ディスク格納装置が稼働状態に戻った直後に回復させるのが最も安全です。回復が遅れると障害がさらに発生し、複製のほとんどが動作不能になり、カーネルパニックを引き起こす場合があります。これは、Solstice DiskSuite 構成で使用できる複製が少なすぎる場合によく起きる現象です。
エラーが発生したこれらの複製は次のテイクオーバー (haswitch(1M) または reboot(1M)) で修復されますが、まずこれらを削除して追加し直すことにより手動で稼働状態に戻すこともできます。
各スライスで削除した複製と同じ数の複製を追加し直すように注意してください。複製は、metadb(1M) コマンドを一度発行してまとめて削除できます。1 つのスライスに複製のコピーを複数格納する必要がある場合は、-c フラグを指定した metadb(1M) を 1 度呼び出し、まとめて追加します。
metastat(1M) コマンドを実行して、エラーが発生したメタデバイスを確認します。
# metastat -s diskset |
metareplace(1M) コマンドを使用してエラーが発生したメタデバイスを稼動状態に戻し、ディスクの同期をとり直します。
# metareplace -s diskset -e mirror component |
-e オプションは、コンポーネント (スライス) を Available 状態に変え、同期をとり直します。
ホットスペアに置き換えられているコンポーネントは、metareplace(1M) コマンドを使用して最後に交換してください。ホットスペアが最初に交換されると、ホットスペアは使用できる状態になったとたんに、エラーが発生したほかのサブミラーを交換する可能性があります。
一度に同期をとり直すことができるのは、サブミラー (メタデバイス) の 1 つのコンポーネントだけです。サブミラーのすべてのコンポーネントが停電の影響を受けた場合は、各コンポーネントを個々に交換する必要があります。1.05G バイトディスクの同期をとり直すには約 10 分かかります。
対称構成内の両方のディスクセットが停電の影響を受けた場合は、各ディスクセットの影響を受けたサブミラーの同期を同時にとり直すことができます。各ホストに個別にログインし、metareplace(1M) コマンドを各ホストで実行してホストのディスクセットを回復させてください。
サブミラーの数とサブミラー内のコンポーネントの数によっては、再同期に相当な時間がかかる場合があります。たとえば、コンポーネントが 5 つしかない管理が容易なサブミラーは、50 分ほどで完了する場合がありますが、1.05G バイトのドライブが 30 個あるようなサブミラーの場合、完了までに約 5 時間かかる可能性があります。
停電が起きると、ディスクドライブが切り離されると同時に、プレックスが切り離されて使用できなくなります。ミラー化されたボリューム内のほかのプレックスはそのまま使用できるため、ボリュームはアクティブに保たれます。ディスクドライブを再接続してこの状況を回復させるには、クラスタ内のノードを停止せずに行えます。
次に、SSVM 構成でディスク格納装置を電力損失から回復させる手順の概略を示します。
vxprint と vxdisk コマンドを使用して、エラーが発生したプレックスを確認する
電力損失を引き起こした障害を修復する
drvconfig と disks コマンドを実行して、/devices と /dev エントリを作成する
現在のディスク構成を検査する
一時的な障害が発生したディスクを再接続する
障害がほかにないことを確認する
(省略可能) 共有ディスクグループでは、停電したディスクごとに vxdg コマンドを実行する
ボリューム回復を開始する
次に、SSVM 構成でディスク格納装置を電力損失から回復させる詳しい手順を示します。
vxprint コマンドを実行して、エラーが発生したプレックスを表示します。
必要に応じて、-g diskgroup オプションを使用してディスクグループを指定してください。
vxdisk コマンドを実行して、エラーが発生したディスクを確認します。
# vxdisk list DEVICE TYPE DISK GROUP STATUS .. - - c1t5d0 toi failed was:c1t5d0s2 ... |
障害が発生したすべてのディスクに電力が戻るように、障害の原因を修復します。
修復を行う前に、ディスクが起動していることを確認してください。
クラスタ内のすべてのノードで、次のコマンドを入力します。
場合によっては、ノード別にドライブを確認し直す必要があります。
# drvconfig # disks |
クラスタ内のすべてのノードで、次のコマンドを入力します。
ボリュームマネージャによって、現在のディスク構成の検査が再度行われます。
# vxdctl enable # vxdisk -a online |
次のコマンドをまずマスターノードで入力し、その後でクラスタ内のほかのノードで入力します。
このコマンドは、一時的な障害が発生したディスクを再接続します。
# vxreattach |
vxdisk コマンドの出力を検証し、ほかにエラーがないか確認します。
# vxdisk list |
メディアが交換された場合は、切断されたディスクごとにマスターノードから次のコマンドを入力します。
このコマンドにより、物理ディスクとそのディスクのボリュームマネージャアクセス名が再結合されます。
# vxdg -g diskgroup -k adddisk medianame=accessname |
medianame と accessname の値が、vxdisk list コマンド出力の最後に表示されます。
次に例を示します。
# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2 # vxdg -g toi -k adddisk c1t5d1=c1t5d1s2 # vxdg -g toi -k adddisk c1t5d2=c1t5d2s2 # vxdg -g toi -k adddisk c1t5d3=c1t5d3s2 # vxdg -g toi -k adddisk c1t5d4=c1t5d4s2 |
ディスクの再接続には、vxdiskadm コマンドまたは GUI も使用できます。
ノードから、ボリューム回復を開始します。
# vxrecover -bv [-g diskgroup] |
共有ディスクグループがある場合は、vxrecover コマンドに -svc オプションを指定してください。
(省略可能) vxprint -g コマンドを実行して、変更を表示します。
この節では、Sun StorEdge A5000 のコンポーネントを管理する方法について説明します。障害が発生したコンポーネントを確認するには、サーバーのハードウェアマニュアルに示された方法を使用してください。
ディスク格納装置からクラスタノードの 1 つに対する接続が失敗する場合、通常、SCSI-2 ケーブルまたは SBus カードに欠陥があります。
どのようなイベントにおいても、障害が発生したノードは、障害が発見される時点でエラーを生成し始めます。そのディスク格納装置に対してその後アクセスがあると、さらにエラーが生成されます。ノードは、ディスク格納装置が停電したかのように動作します。
この種の障害は、クラスタ内のほかのノードからの I/O オペレーションには影響を与えません。
障害を診断するには、Sun Cluster ノードのサービスマニュアルに示されたカードモジュールのテスト作業を行い、障害が発生したコンポーネントを確認してください。ハードウェアデバッグを行うには、ノードの 1 つとダウンしていると思われるディスク格納装置を解放してください。
コンポーネントの交換ができるように Sun Cluster システムの準備を行います。
切断の原因にもとづいて、次に示す作業の 1 つを行なって Sun Cluster ノードの準備を行います。
障害が発生したコンポーネントが SBus FC-100 ホストアダプタの場合、第 7 章「サーバーコンポーネントの管理」を参照して Sun Cluster ノードの電源を切断できるように準備します。
問題が FC-100 光ファイバケーブルの欠陥にある場合は、ボリューム管理ソフトウェアがすでにその問題を検出し、ケーブルが交換できるようにシステムの準備を行なっています。
障害が発生したコンポーネントを交換します。
FC-100 光ファイバケーブルまたは SBus FC-100 ホストアダプタに障害が発生する場合は、『Sun StorEdge A5000 Installation and Service Manual』でそれらの詳しい交換方法を確認してください。
ボリューム管理ソフトウェアのエラーから回復させます。
「電力損失からの回復」に示された作業を行なってください。
以上で、切断を修復する作業が終わります。
この節では、Sun Cluster 構成で Sun StorEdge A5000 ディスクの追加と交換を行う方法について説明します。
Sun StorEdge A5000 ディスクの追加または交換を行う場合は、必ずシステムに付属のマニュアルで詳細を参照してください。
障害が発生した A5000 ディスクを SSVM または CVM の制御下で交換する場合、単純にディスクを引き出して新しいものに交換することはできません。これは、各ディスクに固有の World Wide Name (WWN) があるためです。WWN の詳細は、「SPARCstorage Array コントローラの交換と WWN の変更」を参照してください。
luxadm コマンドを使用して、新しいディスクを挿入します。
プロンプトが表示されたら、ディスク (1 つ以上) を設置します。アレイに物理的に接続しているノードごとに繰り返してください。
# luxadm insert enclosure.slot |
新しいディスクドライブを挿入し、Return キーを入力します。
必要に応じて、format を使用してディスクラベルの作成とパーティションの再分割を行います。
scdidadm(1M) コマンドを使用して新しいディスクを見つけ、その DID インスタンスを作成します。
このコマンドは、ノード 1 から実行してください。詳細は、scdidadm(1M) のマニュアルページを参照してください。
# scdidadm -r -H node2,node3... |
以上で、ディスクの追加作業が終了します。
luxadm コマンドを使用して、新しいデバイスのループの準備を行います。
プロンプトが表示されたら、新しいディスク (1 つ以上) を設置します。
# luxadm insert |
SSVM に新しいディスクを通知します。
# vxdctl enable |
vxdiskadm コマンドを使用して、新しいディスクを SSVM の制御下に置きます。
1 (1 つ以上のディスクを追加または初期化する) を入力します。
以上で、ディスクの追加作業が終了します。
障害のあるディスクを使用しているメタデバイスまたはアプリケーションをすべて確認します。
メタデバイスがミラー化されているか RAID5 の場合、メタデバイスを停止せずにディスクを交換できます。この条件に当てはまらない場合は、適切なコマンドを使用してディスクの I/O をすべて停止する必要があります。たとえば、ストライプまたは連結上のファイルシステムのマウントを解除するには、umount(1M) コマンドを使用します。
必要に応じ、ディスクラベルを保存します。
次に例を示します。
# prvtoc /dev/rdsk/c1t3d0s2 > /tmp/c1t3d0.vtoc |
(省略可能) ディスクがホットスペア化されていない場合は、metareplace を使用してディスクスライスを交換します。
次に例を示します。
# metareplace d1 c1t3d0s2 c1t2d0s2 d1: device c1t3d0s2 is replaced with c1t2d0s2 |
luxadm -F を使用して、ディスクを削除します。Solstice DiskSuite はディスクをオフラインにしないため、-F は必須です。
多重ホスト構成の場合は、すべてのホストについて繰り返します。次に例を示します。
# luxadm remove -F /dev/rdsk/c1t3d0s2 WARNING!!! Please ensure that no filesystems are mounted on these device(s). All data on these devices should have been backed up.The list of devices which will be removed is: 1: Box Name "macs1" rear slot 1 Please enter `q' to Quit or <Return> to Continue: stopping: Drive in "macs1" rear slot 1....Done offlining: Drive in "macs1" rear slot 1....Done Hit <Return> after removing the device(s). |
削除されるディスクドライブを示す FPM アイコンと、ディスクドライブの下の琥珀色の LED が点滅していることを確認してください。
ディスクドライブを除去し、Return キーを押します。
次に出力例を示します。
Hit <Return> after removing the device(s). Drive in Box Name "macs1" rear slot 1 Removing Logical Nodes: Removing c1t3d0s0 Removing c1t3d0s1 Removing c1t3d0s2 Removing c1t3d0s3 Removing c1t3d0s4 Removing c1t3d0s5 Removing c1t3d0s6 Removing c1t3d0s7 Removing c2t3d0s0 Removing c2t3d0s1 Removing c2t3d0s2 Removing c2t3d0s3 Removing c2t3d0s4 Removing c2t3d0s5 Removing c2t3d0s6 Removing c2t3d0s7# |
SPARCstorage Array がマルチホスト構成の場合は、すべてのノードについて繰り返します。
luxadm insert コマンドを使用して、新しいディスクを挿入します。
すべてのノードについて繰り返します。次に出力例を示します。
# luxadm insert macs1,r1 The list of devices which will be inserted is: 1: Box Name "macs1" rear slot 1 Please enter `q' to Quit or <Return> to Continue: Hit <Return> after inserting the device(s). |
ディスクドライブを挿入し、Return キーを入力します。
次に出力例を示します。
Hit <Return> after inserting the device(s). Drive in Box Name "macs1" rear slot 1 Logical Nodes under /dev/dsk and /dev/rdsk : c1t3d0s0 c1t3d0s1 c1t3d0s2 c1t3d0s3 c1t3d0s4 c1t3d0s5 c1t3d0s6 c1t3d0s7 c2t3d0s0 c2t3d0s1 c2t3d0s2 c2t3d0s3 c2t3d0s4 c2t3d0s5 c2t3d0s6 c2t3d0s7# |
交換したディスクドライブの FPM アイコンと、ディスクドライブの下の緑色の LED が点滅していることを確認してください。
scdidadm(1M) を使用して、DID 疑似デバイス情報を更新します。
ディスクに接続されたすべてのノードで、次のコマンドを実行して新しいディスク ID 情報を更新してください。
# scdidadm -R DID_instance |
DID_instance には、交換されたディスクのインスタンス名を指定します。詳細は、scdidadm(1M) のマニュアルページを参照してください。
新しいディスクに接続されたすべてのノードを再起動します。
ダウンタイムを避けるため、haswitch(1M) コマンドを使用して、ノードが制御できるすべての論理ホストの所有権を再起動されるノードに切り替えます。次に例を示します。
# haswitch phys-hahost2 hahost1 hahost2 |
必要に応じて、ディスクに名前を付けます。
次に例を示します。
# cat /tmp/c1t3d0.vtoc | fmthard -s - /dev/rdsk/c1t3d0s2 fmthard: New volume table of contents now in place. |
必要に応じて、metadb を繰り返します。
次に例を示します。
# metadb -d c1t3d0s0; metadb -a c1t3d0s0 |
metareplace -e を使用して、新しいディスクスライスを有効にします。
次に例を示します。
# metareplace -e d0 c1t3d0s0 d0: device c1t3d0s0 is enabled |
以上で、ディスクの交換作業が終了します。
障害のあるディスクを使用しているボリュームまたはアプリケーションをすべて確認します。
ボリュームがミラー化されているか RAID5 の場合、ボリュームを停止せずにディスクを交換できます。この条件に当てはまらない場合は、適切なコマンドを使用してディスクの I/O をすべて停止する必要があります。たとえば、ストライプまたは連結上のファイルシステムのマウントを解除するには、umount(1M) コマンドを使用します。
vxdiskadm コマンドを使用し、ディスクデバイスを交換してオフラインにします。
SSVM の場合、ディスクグループを所有している論理ホストを制御しているマシンでこのコマンドを実行してください。
4 (交換のためにディスクを削除する) を入力し、続いて 11 (ディスクデバイスを無効 <オフライン> にする) を入力します。
GUI を使用することもできます。
luxadm コマンドを使用して、デバイスとデバイスノードを削除します。
対話型のこのコマンドは、ディスクを実際に除去する指示を表示します。次に例を示します。
# luxadm remove_device -F /dev/rdsk/c2t20d0s2 |
SPARCstorage Array に接続されているノードごとにコマンドを実行します。
実際のディスクを交換し、luxadm コマンドを使用して新しいディスクを挿入します。
これにより、新しいデバイスとデバイスノードが作成されます。次に例を示します。
# luxadm insert_device ratbert,r4 |
SPARCstorage Array に接続されたノードごとにこのコマンドを繰り返します。
ボリュームマネージャに新しいディスクを通知します。
# vxdctl enable |
vxdiskadm コマンドを使用して、新しいディスクを SSVM の制御下に置きます。
5 (障害が発生したディスクまたは削除されたディスクを交換する) を入力してください。
(省略可能) 必要に応じ、ボリュームを復元します。
以上で、ディスクの交換作業が終了します。