Sun Cluster 2.2 のシステム管理

SPARCstorage Array の管理

この章では、SPARCstorage Array Model 100 シリーズ、差動型 SCSI が搭載された SPARCstorage Array Model 200 シリーズ、RSM ディスクトレーが搭載された SPARCstorage Array Model 200 シリーズの管理方法について説明します。

この章で説明する手順は、次のとおりです。

Sun Cluster 構成で SPARCstorage Array のハードウェアを交換または修復する場合は、SPARCstorage Array のサービスマニュアルとボリュームマネージャのマニュアルを参照してください。

電力損失からの回復

SPARCstorage Array の 1 つが停電すると、I/O オペレーションはボリューム管理ソフトウェアによって検出されるエラーを生成します。これらのエラーは、そのディスクに対して I/O トランザクションが行われるまでは報告されません。影響を受けたデバイスにホットスペアが設定されている場合は、ホットスペアアクティビティを開始できます。

これらのイベントについては、構成の監視が必要です。構成の監視については、第 2 章「Sun Cluster の管理ツール」を参照してください。

電力損失から回復させるには (Solstice DiskSuite)

次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の回復手順の概略を示します。

エラーが発生した複製を特定する
エラーが発生した複製を稼動状態にする
エラーが発生したデバイスを特定する
エラーが発生したデバイスを稼動状態にする
ディスクの同期をとり直す

次に、Solstice DiskSuite 構成で SPARCstorage Array に電力損失が発生した場合の詳しい回復手順を示します。

電力が戻った時点で、metadb(1M) コマンドを実行してエラーが発生した複製を特定します。
# metadb -s diskset

複製を稼動状態にします。

停電後、影響を受けた SPARCstorage Array すべてのメタデバイス状態データベースの複製がエラー状態になります。メタデバイス状態データベースの複製は自動回復しないため、SPARCstorage Array がサービスに戻った直後に回復させるのが最も安全です。回復が遅れると障害がさらに発生し、複製のほとんどがサービス不能になり、カーネルの障害を引き起こす場合があります。これは、Solstice DiskSuite 構成で使用できる複製が少なすぎる場合によく起きる現象です。

エラーが発生したこれらの複製は次のテイクオーバー (haswitch(1M) または reboot(1M)) で修復されますが、まずこれらを削除して追加し直すことにより手動で稼動状態にするのが最善の解決策です。

注 -
各スライスで削除した複製と同じ数の複製を追加してください。複製は、metadb(1M) コマンドを 1 回実行することでまとめて削除できます。1 つのスライスに複製のコピーを複数格納する必要がある場合は、-c フラグを指定した metadb(1M) を 1 度呼び出し、まとめて追加します。

metstat(1M) コマンドを実行して、エラーが発生したメタデバイスを特定します。
# metastat -s diskset

metareplace(1M) コマンドを使用して、エラーが発生したメタデバイスを稼動状態に戻します。これにより、ディスクの同期がとり直されます。
# metareplace -s diskset -e mirror component
-e オプションは、コンポーネント (スライス) を Available 状態に変え、同期を取り直します。

ホットスペアに置き換えられているコンポーネントは、metareplace(1M) コマンドを使用して最後に交換してください。ホットスペアを最初に交換すると、ホットスペアが使用できる状態になったとたんに、エラーが発生したほかのサブミラーが交換される可能性があります。

一度に同期を取り直すことができるのは、サブミラー (メタデバイス) の 1 つのコンポーネントだけです。サブミラーのすべてのコンポーネントが停電の影響を受けた場合は、各コンポーネントを個々に交換する必要があります。1.05G バイトディスクの同期をとり直すには約 10 分かかります。

停電で複数のディスクセットが影響を受けた場合は、各ディスクセットの影響を受けたサブミラーの同期を同時にとり直すことができます。各ホストに個別にログインし、metareplace(1M) コマンドを各ホストで実行してホストのディスクセットを回復させてください。

注 -
サブミラーの数とサブミラー内のコンポーネントの数によっては、再同期に相当な時間がかかる場合があります。たとえば、コンポーネントが 5 つしかない管理が容易なサブミラーは、50 分ほどで完了する場合がありますが、1.05G バイトのドライブが 30 個あるようなサブミラーの場合、完了までに約 5 時間かかる可能性があります。

電力損失から回復させるには (SSVM、CVM)

停電が起きると、ディスクドライブが切り離されると同時に、プレックスが切り離されて使用できなくなります。ミラー化されていると、ボリューム内のほかのプレックスはそのまま使用できるため、ボリュームはアクティブに保たれます。クラスタ内のノードを停止せずにディスクドライブを再接続してこの状況を回復させることができます。

次に、SSVM 構成で SPARCstorage Array を電力損失から回復させる手順の概略を示します。

vxprint と vxdisk コマンドを使用して、エラーが発生したプレックスを確認する
電力損失の原因となった障害を修復する
drvconfig と disks コマンドを実行して、/devices と /dev エントリを作成する
現在のディスク構成を走査する
一時的な障害が発生したディスクを再接続する
障害がほかにないことを確認する
(省略可能) 共有ディスクグループでは、停電したディスクごとに vxdg コマンドを実行する
ボリュームの回復を開始する

次に、SSVM 構成で SPARCstorage Array を電力損失から回復させる詳しい手順を示します。

vxprint コマンドを実行して、エラーが発生したプレックスを表示します。

必要に応じて、-g diskgroup オプションを使用してディスクグループを指定してください。

vxdisk コマンドを実行して、エラーが発生したディスクを確認します。

# vxdisk list
 DEVICE       TYPE      DISK         GROUP        STATUS
 ..
 -            -         c1t5d0       toi          failed was:c1t5d0s2
 ...

障害が発生したすべてのディスクに電力が戻るように、障害の原因を修復します。

修復を行う前に、ディスクが起動していることを確認してください。

クラスタ内のすべてのノードで、次のコマンドを入力します。

場合によっては、ノード別にドライブを確認し直す必要があります。
# drvconfig # disks

クラスタ内のすべてのノードで、次のコマンドを入力します。

SSVM または CVM によって、現在のディスク構成の走査が再度行われます。
# vxdctl enable # vxdisk -a online

クラスタ内のすべてのノードで、次のコマンドを入力します。

注 -
CVM では、まずマスターノードでこのコマンドを入力し、その後にスレーブノードで入力してください。

このコマンドにより、一時的な障害が発生していたディスクが接続し直されます。
# vxreattach

vxdisk コマンドの出力を検証し、ほかにエラーがないかどうかを確認します。
# vxdisk list
まだエラーがある場合は、手順 6 の説明に従って vxreattach コマンドを再実行します。

(CVM のみ) 共有ディスクグループが存在し、メディアがマスターノードから切り離された場合は、切り離されたディスクごとに次のコマンドを繰り返します。

このコマンドにより、物理ディスクとそのディスクのボリュームマネージャのアクセス名が再結合されます。

# vxdg -g disk-group-name -k adddisk medianame=accessname

medianame と accessname の値が、vxdisk list コマンド出力の最後に表示されます。

次に例を示します。

# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2
# vxdg -g toi -k adddisk c1t5d1=c1t5d1s2
# vxdg -g toi -k adddisk c1t5d2=c1t5d2s2
# vxdg -g toi -k adddisk c1t5d3=c1t5d3s2
# vxdg -g toi -k adddisk c1t5d4=c1t5d4s2

ディスクの再接続には、vxdiskadm コマンドまたは GUI も使用できます。

ノード、または共有ディスクグループのマスターノードから、ボリュームの回復を開始します。
# vxrecover -bv [-g diskgroup]

(省略可能) vxprint -g コマンドを実行して、変更を表示します。

SPARCstorage Array の接続失敗の修復

SPARCstorage Array からホストに対する接続が失敗した場合は、原因として光ファイバケーブル、SBus FC/S カード、FC/OM モジュールなどが考えられます。

接続が失敗したホストは、その失敗が発見されるとエラーを生成します。その後 SPARCstorage Array にアクセスすると、別のエラーが生成されます。ホストは、SPARCstorage Array が停電したかのように動作します。

この種の障害は、クラスタ内のほかのノードからの I/O 操作には影響を与えません。

障害を診断するには、SPARCstorage Array の出力を調べてください。この出力から、どの接続が失敗したかがわかります。Sun Cluster ノードのサービスマニュアルで説明されている FC/S カードと FC/OM モジュールのテスト作業を行なって、どのコンポーネントで接続が失敗しているかを調べてください。ハードウェアデバッグを行うには、Sun Cluster ノードの 1 つとダウンしていると思われる SPARCstorage Array を解放してください。

SPARCstorage Array 接続の失敗を修復するには

コンポーネントの交換ができるように Sun Cluster システムの準備を行います。

接続の失敗原因にもとづいて、次に示す作業の 1 つを行なって Sun Cluster システムを準備してください。
- 接続に失敗したコンポーネントが FC/S カードまたは FC/S カードの FC/OM モジュールである場合は、第 7 章「サーバーコンポーネントの管理」を参照して Sun Cluster ノードの電源が落とせるように準備します。
- 問題が光ファイバケーブルの欠陥にある場合は、ボリューム管理ソフトウェアがすでにその問題を検出し、ケーブルが交換できるようにシステムの準備を行なっています。
- SPARCstorage Array の FC/OM モジュールに障害が発生している場合は、SPARCstorage Array トレーごとに、「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」または「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の作業により、SPARCstorage Array 全体の準備を行なってください。

障害のあるコンポーネントを交換します。

光ファイバケーブル、SBus FC/S カード、または FC/OM モジュールに障害がある場合は、Sun Cluster ノードのサービスマニュアルで詳しい交換方法を確認してください。

ボリューム管理ソフトウェアのエラーから回復させます。

「電力損失からの回復」に示された作業を行なってください。

SPARCstorage Array の追加

SPARCstorage Array は、任意の時点で Sun Cluster 構成に追加できます。

SPARCstorage Array を追加するには、あらかじめクラスタ内のディスクグループ構成を確認する必要があります。SPARCstorage Array がディスクグループ構成に与える影響を調べるには、『Sun Cluster 2.2 ソフトウェアのインストール』の構成計画についての説明を参照してください。

SPARCstorage Array を追加するには

新しい SPARCstorage Array を受けるクラスタノードを停止します。

「1 つのクラスタノードで Sun Cluster を停止するには」を参照して、ノードを停止してください。

ノードに Fibre Channel SBus カード (FC/S) を取り付けます。

Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従って、FC/S カードを取り付けてください。

注 -
FC/S カードは、ノード内のほかのカードに続くように、SBus スロットの最初の空きスロットに差し込んでください。これにより、Solaris オペレーティング環境が再インストールされる場合に、コントローラの番号付けがそのまま保たれます。詳細は、「インスタンス名と番号付け」を参照してください。

SPARCstorage Array と FC/S カードにケーブルを接続します。

Sun Cluster ノードのハードウェアサービスマニュアルに示された作業方法に従ってください。

ノードの再構成再起動を行います。
ok boot -r

haswitch(1M) コマンドを実行して、制御可能なすべての論理ホストの所有権を再起動したノードに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost1 hahost2

この SPARCstorage Array に接続されているほかのノードで、手順 4 までを繰り返します。

必要に応じ、論理ホストの所有権を該当するデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2

SPARCstorage Array 内のディスクを、選択されたディスクグループに追加します。

ボリュームマネージャのマニュアルに示された作業方法に従って、ディスクを選択されたディスクグループに追加してください。『Sun Cluster 2.2 ソフトウェアのインストール』の Solstice DiskSuite、SSVM、および CVM についての説明も参照してください。

(Solstice DiskSuite 構成のみ) metaset(1M) コマンドを使用してディスクセットにディスクを追加した後、scadmin(1M) コマンドを使用して指定されたディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost1# scadmin reserve cNtXdYsZ

SPARCstorage Array トレーの管理

この節では、SPARCstorage Array トレーの管理作業について説明します。障害が発生したコンポーネントに対応するトレーを確認するには、ノードのハードウェアマニュアルに示された作業方法に従ってください。

SPARCstorage Array シャーシ全体を交換しなければならないようなデータ消失や障害を防ぐには、単一のシャーシにサブミラーが 1 つだけが格納されるようにすべてのミラーを設定します。

注 -

Sun Cluster がサポートする SPARCstorage Array モデルはいくつかありますが、この節の作業は SPARCstorage Array 100 シリーズだけを対象としています。

SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)

SPARCstorage Array トレーを取り外す前に、すべての I/O を停止し、トレー内のすべてのドライブを停止する必要があります。ドライブは I/O 要求が出されると自動的に起動するため、ドライブを停止する前にすべての I/O を停止する必要があります。

次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを取り外す手順の概略を示します。

論理ホストをほかのクラスタノードに切り替える
影響を受けるトレーの I/O を停止する
影響を受けるトレー上の複製、ホットスペア、サブミラーを確認する
NVRAM データをフラッシュする (NVRAM が有効になっている場合)
トレーを停止し、取り外す

SPARCstorage Array 全体がサービスの対象となっている場合は、これらの手順をトレーごとに行う必要があります。

次に、Solstice DiskSuite 構成で SPARCstorage Array トレーをサービスから除く詳しい手順を示します。

haswitch(1M) コマンドを使用して、影響を受けた論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2
取り外す SPARCstorage Array トレーに、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。後でディスクを停止する場合には、luxadm(1M) コマンドを使用します。この例では、haswitch(1M) コマンドで論理ホストを phys-hahost1 に切り替えることにより、phys-hahost2 が管理機能を実行できるようにしています。

影響を受けるすべての論理ホストで metastat(1M) コマンドを実行し、取り外されるトレー上のスライスを含むすべてのサブミラーを確認します。
phys-hahost1# metastat -s disksetname

影響を受けるトレー上にコンポーネント (スライス) が存在するサブミラーの I/O を停止します。

この作業には、サブミラーをオフラインにする metaoffline(1M) コマンドを使用してください。metadetach(1M) コマンドでも I/O を停止できますが、同期をとり直す手間が増えます。

トレー上のサブミラーがオフラインになると、対応するミラーは片方向のミラー化だけを行うようになります。つまり、データの冗長性は確保されなくなります (3 重のミラーにはこの問題はありません)。ミラーをオンラインに戻すと、自動的に同期がとり直されます。

影響を受けるすべてのサブミラーがオフラインになっている間、トレーの I/O は停止します。

metadb(1M) コマンドを使用して、トレー上の複製を確認します。

トレーの交換時に使用できるように、metadb(1M) の出力を保存してください。

metahs(1M) コマンドを使用して、使用できるホットスペアデバイスと対応するサブミラーを確認します。

トレーの交換時に使用できるように、metahs(1M) の出力を保存してください。

NVRAM が有効な場合は、適切なコントローラ、トレー、ディスクに NVRAM データをフラッシュします。
phys-hahost1# luxadm sync_cache pathname
NVRAM データがフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュについては、「NVRAM のフラッシュとパージ」を参照してください。

luxadm stop コマンドを使用して、トレーを停止します。

トレーのロックライトが消えた後、トレーを取り外し、必要な作業を行なってください。
phys-hahost1# luxadm stop c1

SPARCstorage Array トレーを取り外すには (SSVM、CVM)

次に、SSVM 構成で SPARCstorage Array トレーをサービスから除く手順の概略を示します。

論理ホストをほかのクラスタノードに切り替える
影響を受けるトレー上の SSVM または CVM オブジェクトを確認する
影響を受けるトレーの I/O を停止する
NVRAM データをフラッシュする (NVRAM が有効になっている場合)
トレーを停止し、取り外す

SPARCstorage Array 全体が稼動している場合は、これらの手順をトレーごとに行う必要があります。

次に、SSVM 構成で SPARCstorage Array トレーを取り外す詳しい手順を示します。

haswitch(1M) コマンドを使用して、影響を受ける論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2
取り外す SPARCstorage Array トレーに、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。後でディスクを停止する場合には、luxadm(1M) コマンドを使用します。この例では、haswitch(1M) コマンドで論理ホストを phys-hahost1 に切り替えることにより、phys-hahost2 が管理機能を実行できるようにしています。

取り外すトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
1. デバイスの物理アドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
  
  たとえば、デバイスアドレスが c3t2d0 の場合、コントローラ番号は 3、ターゲット番号は 2 です。
2. vxdisk list の出力から、影響を受けるトレー上の SSVM または CVM デバイスを確認します。
  
  ターゲット番号が 0 または 1 の場合、cNt0 と cNt1 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 2 または 3 の場合、cNt2 と cNt3 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 4 または 5 の場合、cNt4 と cNt5 から始まる物理アドレスを持つデバイスをすべて確認します。次に、vxdisk を使用して情報を取得する例を示します。
  vxdisk -g diskgroup -q list | egrep c3t2¥|c3t3 | nawk '{print $3}'
3. 次のコマンドを使用して、上記のデバイス上のすべてのプレックスを確認します。
  PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c3t2d0","c3t3d0","c3t3d1")) && (pl_kstate=ENABLED)' | nawk '{print $2}'`
  csh では、構文は set PLLIST .... .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。

変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。

トレーに対応したすべてのボリュームが切り離されたかどうか (ミラー構成または RAID5 構成の場合)、あるいは停止された (単純プレックスの場合) かどうかを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex det ${PLLIST}
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex
単純プレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、データベースアクセスを停止します。

注 -
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはアクティブなままです。

NVRAM が有効な場合は、適切なコントローラ、トレー、ディスクにNVRAM データをフラッシュします。NVRAM が無効な場合は、手順 5 に進んでください。
# luxadm sync_cache pathname
NVRAM データがフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュについては、「NVRAM のフラッシュとパージ」を参照してください。

luxadm stop コマンドを使用して、トレーを停止します。

トレーのロックライトが消えた後、トレーを取り外し、必要な作業を行なってください。
# luxadm stop c1

SPARCstorage Array トレーを稼動状態に戻すには (Solstice DiskSuite)

次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを稼動状態に戻す手順の概略を示します。

ドライブを起動する
複製、サブミラー、ホットスペアをすべて復元する
各論理ホストをそれらのデフォルトマスターにスイッチバックする

SPARCstorage Array 全体がサービスの対象となっていた場合は、これらの作業をトレーごとに行う必要があります。

次に、Solstice DiskSuite 構成で SPARCstorage Array トレーを稼動状態に戻す詳しい手順を示します。

SPARCstorage Array が除去されている場合は、SPARCstorage Array トレー内のドライブを起動します。除去されていなかった場合は、手順 3に進んでください。

SPARCstorage Array トレーの作業が完了した後、トレーをシャーシに戻してください。ディスクは、通常自動的に起動します。ディスクが起動しない場合は、luxadm(1M) start コマンドを実行し、トレー全体を手動で起動してください。SPARCstorage Array では、コマンドの呼び出しとドライブの起動の間にわずかな遅延 (数秒) があります。次の例では、c1 がコントローラ ID です。
phys-hahost1# luxadm start c1

このトレーのディスクから削除されたメタデバイス状態データベースの複製をすべて追加します。

「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の手順 4 で保存した情報を使用して、メタデバイス状態データベースの複製を復元してください。
phys-hahost1# metadb -s hahost1 -a deleted-replicas
同じスライスに複数の複製を追加するには、-c オプションを使用してください。

ディスクが起動した後、オフラインにしたサブミラーをすべてオンラインに戻します。

このトレーのディスクに該当する metaonline(1M) コマンドを使用してください。
phys-hahost1# metaonline -s hahost1 d15 d35 phys-hahost1# metaonline -s hahost1 d24 d54 ...
metaonline(1M) コマンドの実行時に、最適化された再同期オペレーションがサブミラーを自動的に最新の状態にします。最適化された再同期オペレーションは、サブミラーがオフラインであった間に変更されたディスク領域だけコピーします。これは、通常、サブミラー容量のごく一部です。

metaonline(1M) は、すべてのサブミラーがオンラインに戻るまで必要な回数実行してください。

注 -
metaoffline(1M) ではなく metadetach(1M) コマンドを使用してサブミラーを切り離した場合は、metattach(1M) コマンドを使用してサブミラー全体の同期をとる必要があります。この作業は、通常、1G バイトのデータあたり約 10 分かかります。

SPARCstorage Array が取り外された時に削除されたホットスペアをすべて追加し直します。

ホットスペア構成に合わせて、適宜 metahs(1M) コマンドを使用してください。「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の手順 5 で保存した情報を使用して、ホットスペアを交換してください。
phys-hahost1# metahs -s hahost1 -a hotsparepool cNtXdYsZ

必要に応じて、各論理ホストをそのデフォルトマスターに切り替えます。
phys-hahost1# haswitch phys-hahost2 hahost2

SPARCstorage Array トレーを稼動状態に戻すには (SSVM または CVM)

次に、SSVM または CVM 構成で SPARCstorage Array トレーを稼動状態に戻す手順の概略を示します。

ドライブを起動する
SSVM または CVM オブジェクトを復元する
各論理ホストをそれらのデフォルトマスターにスイッチバックする

SPARCstorage Array 全体がサービスの対象となっていた場合は、これらの作業をトレーごとに行う必要があります。

次に、SSVM 構成で SPARCstorage Array トレーを稼動状態に戻す詳しい手順を示します。

SPARCstorage Array が除去されている場合は、SPARCstorage Array トレー内のドライブを起動します。除去されていない場合は、手順 2に進んでください。

SPARCstorage Array トレーの作業が完了した後、トレーをシャーシに戻してください。ディスクは、通常自動的に起動します。ディスクが起動しない場合は、luxadm(1M) start コマンドを実行し、トレー全体を手動で起動してください。SPARCstorage Array では、コマンドの呼び出しとドライブの起動の間にわずかな遅延 (数秒) があります。次の例では、c1 がコントローラ ID です。
phys-hahost1# luxadm start c1

ディスクが起動した後、ボリューム管理の回復を監視します。

先に影響を受けたトレー上のボリュームがオンラインに戻り始め、数分のうちにデータの再構築が自動的に始まります。必要に応じて、vxreattach と vxrecover コマンドを使用して、ディスクの再接続とエラー回復を行なってください。詳細は、それぞれのマニュアルページを参照してください。

注 -
切り離された DRL サブディスクは、手動で再接続する必要があります。

必要に応じて、各論理ホストをそのデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2

SPARCstorage Array コントローラの交換と WWN の変更

SPARCstorage Array には、Solaris に対してコントローラを識別するための固有の名称である WWN (World Wide Name)があります。そのため、SPARCstorage Array の障害によってコントローラまたはコントローラを含むシャーシ全体を交換する必要が生じた場合は、特別な作業が必要となります。

WWN は、SPARC マシンのホスト IDPROM に格納されているホスト ID に似ています。SPARCstorage Array の WWN の最後の 4 桁は、シャーシの LCD パネルに表示されます。WWN は、SPARCstorage Array とそのコンポーネントのドライブに対応する /devices パスの一部です。

SPARCstorage Array コントローラまたはシャーシ全体を交換する必要がある場合は、それらが再起動される時に Sun Cluster ノードは新しい WWN を見つけます。新しい WWN によって Sun Cluster ソフトウェアの上位レイヤーが混乱することを防ぐには、新しいコントローラの WWN を古いコントローラの WWN に変更する必要があります。これは、SPARC マシンのシステムボードを交換する場合に、IDPROM を置換するのに似ています。

WWN をどの方法で置換するかを決定するには、次の点を考慮してください。

「メンテナンスシステムを使用して SPARCstorage Array の WWN を変更するには」に示す方法は、クラスタノードを停止することなくコントローラを変更できる独立した保守用システムを使用します。
SPARCstorage Array が完全には故障していない場合や、何かほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに「SPARCstorage Array トレーの管理」に示す手順を実行して、置換の準備を行なってください。続いて、「SPARCstorage Array の WWN を変更するには」に示す作業を実行してください。
SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意がされています。この場合は、「SPARCstorage Array の WWN を変更するには」に示す作業を実行できます。

メンテナンスシステムを使用して SPARCstorage Array の WWN を変更するには

ここでは、SPARCstorage Array コントローラを変更し、その WWN を障害の発生したコントローラの WWN に置き換える方法を説明します。この方法を使用すると、クラスタ内のノードを停止せずに SPARCstorage Array コントローラを交換できます。

この方法は、「保守用システム」(SPARCstorage Array をサポートできる任意の Sun アーキテクチャ) を使用します。保守用システムを使用することで、クラスタ内のノードを停止することなくこの作業を行えます。

保守用システムは、クラスタノードと同じバージョンの Solaris オペレーティング環境 (2.6 または 7) を読み込んでください。このシステムには、該当するすべてのパッチが必要です。また、CD-ROM ドライブ、Fibre Channel SBus Card (FC/S)、Fibre Channel Optical Module (FC/OM) も必要とします。このシステムの FCODE およびハードウェアリビジョンは、適切なものでなければなりません。保守用システムは、ネットワーク上のサーバーから起動することもできます。

注 -

保守用システムが使用できない場合は、クラスタノードの 1 つをこの目的で使用し、この作業の手順に従ってください。

次に、保守用システムを使用して SPARCstorage Array の WWN を変更する手順の概略を示します。

(省略可能) コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数デバイスを選択する
交換する SPARCstorage Array の WWN を取得する
光ケーブルを取り外し、コントローラまたは SPARCstorage Array を交換する
保守用システムから新しいコントローラに光ケーブルを接続する
Solaris CD から「mini-unix」を使用して保守用システムを起動する
元の WWN をダウンロードする
SPARCstorage Array をリセットする
メンテナンスシステムを停止する
SPARCstorage Array コントローラをクラスタノードに接続する
クラスタノードから、新しいコントローラのファームウェアレベルを調べる
(省略可能) 必要に応じて、クラスタノードから新しいコントローラのファームウェアをアップグレードする
SPARCstorage Array トレーをオンラインにし、ボリューム管理回復を行う

次に、保守用システムを使用して SPARCstorage Array の WWN を変更する詳しい手順を示します。

障害が発生した SPARCstorage Array コントローラが定足数コントローラの場合は、scconf(1M) コマンドを使用して新しい定足数コントローラを選択します。

詳細は、scconf(1M) のマニュアルページを参照してください。

SPARCstorage Array の WWN を確認します。
- SPARCstorage Array の電源が落ちている場合は、次の方法で WWN を確認してください。
  
  WWN は、12 桁の 16 進数で構成されています。これらの数字は、デバイスパスコンポーネントの一部として示されます。WWN は、pln@a0 という文字の後に続く最後の 12 桁 (コンマを除く) です。現在の WWN を確認するには、SPARCstorage Array に接続されているクラスタノードで、ls(1) コマンドを実行してください。
# ls -l /dev/rdsk/cNt0d0s0 ...SUNW,pln@a0000000,7412bf ...
この例では、SPARCstorage Array の WWN は 0000007412bf です。デバイス名の中の変数 N は、故障した SPARCstorage Array のコントローラ番号を示します。文字列「t0d0s0」は、1 つの例です。SPARCstorage Array 上に存在するデバイス名を使用するか、すべてのデバイスを指定するように /dev/rdsk/cN* を使用してください。
- SPARCstorage Array が稼動中の場合は、luxadm(1M) コマンドを使用して WWN を確認できます。
  
  display オプションを指定して luxadm(1M) を実行し、コントローラを指定すると、SPARCstorage Array の情報がすべて表示されます。luxadm(1M) が示すシリアル番号が WWN です。
# /usr/sbin/luxadm display cN

障害のある SPARCstorage Array コントローラから光ケーブルを外します。

障害のあるコントローラを交換します。

この手順を行うには、SPARCstorage Array のサービスマニュアル内の操作説明に従ってください。

SPARCstorage Array が完全には故障していない場合や、コントローラ障害以外のほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに「SPARCstorage Array トレーの管理」で説明されている手順を実行して、交換の準備を行なってください。

SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意ができています。

保守用システムから新しいコントローラに光ケーブルを接続します。

保守用システムで OpenBoot PROM モードに入り、「mini-unix」を指定して起動します。

製品 CD (またはネットワーク上の同等プログラム) を使用して、メンテナンスシステムをシングルユーザーモードに設定し、新しい SPARCstorage Array の WWN を含むデバイス構造のメモリ内バージョンを取得します。
<#0> ok boot cdrom -s または <#0> ok boot netqe1 -s
デバイス情報が永続的に変更されることを避けるために、「mini-unix」を使用してください。

luxadm download コマンドを実行して、WWN を設定します。
# /usr/sbin/luxadm -s -w WWN download cN
WWN は、交換されるコントローラの 12 桁の WWN です。N は、デバイス名の cNtXdX に含まれるコントローラ番号です。WWN は、手順 2で取得したものです。

注 -
先頭のゼロは、合計 12 桁にするために WWN の一部として必ず入力する必要があります。

注意 -
ダウンロード処理は中断しないでください。luxadm(1M) コマンドが終了し、シェルプロンプトが表示されるまで待ってください。

プロンプトが再表示された後、SPARCstorage Array をリセットします。

SPARCstorage Array のウィンドウに、新しいアドレスが表示されます。

保守用システムを停止します。

SPARCstorage Array コントローラをクラスタノードに再度接続します。

クラスタノードから、SPARCstorage Array のファームウェアレベルを調べます。

ファームウェアの現行バージョンを確認するには、luxadm(1M) コマンドを使用します。この場合は、luxadm(1M) コマンドに、コントローラ番号 (次の例の N) を指定してください。
# /usr/sbin/luxadm display cN
注 -
システム上に古いファームウェアが検出されると、Solaris システムはコンソールと /var/adm/messages に次のようなメッセージを表示します。
NOTICE: pln0: Old SSA firmware has been detected (Ver:3.11) : Expected (Ver:3.12) - Please upgrade

(省略可能) コントローラのファームウェアをアップグレードする場合は、次の手順に従います。
1. 適切なファームウェアをダウンロードします。詳細は、ファームウェアパッチ内の README ファイルを参照してください。
  # /usr/sbin/ssaadm download -f path/ssafirmware cN
  path は、ファームウェアが格納されているディレクトリのパスです。N は、コントローラ番号です。次に例を示します。
  # /usr/sbin/ssaadm download -f /usr/lib/firmware/ssa/ssafirmware cN
2. SPARCstorage Array にある「SYS OK」ボタンを押してリセットします。
  
  再起動するまで少々時間がかかります。
3. 手順 11を使用して、ファームウェアレベルを再度確認します。ファームウェアレベルまたは WWN が依然として不正な場合は、別のコントローラを使用して手順 12を繰り返してください。

ボリュームマネージャの回復を開始します。

「SPARCstorage Array トレーの管理」を参照してください。SPARCstorage Array がすべてのノードでオンラインになり、かつそれらのノードからすべてのディスクが見えるようになるまで待ちます。

SPARCstorage Array の WWN を変更するには

注意 -

ルートディスクが SSVM または CVM によってカプセル化されているか、あるノードの起動ディスクがこの SPARCstorage Array に存在する場合は、この作業は行えません。このような場合には、「メンテナンスシステムを使用して SPARCstorage Array の WWN を変更するには」を行なってください。

注 -

定足数コントローラに障害が発生した場合は、ノードを停止する前に新しい定足数コントローラを選択する必要があります。

次に、SPARCstorage Array の WWN を変更する手順の概略を示します。

(省略可能) コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数デバイスを選択する
修復作業が行うノードまたは交換するコントローラから、論理ホストの所有権を移す
交換する SPARCstorage Array の WWN を取得する
コントローラまたは SPARCstorage Array を交換する
Sun Cluster ソフトウェアを停止し、そのディスクを所有していないノードを停止する
「mini-unix」を使用して、そのディスクを所有していないノードを起動する
新しい SPARCstorage Array のコントローラ番号を確認する
新しい WWN を設定し、SPARCstorage Array をリセットする
必要に応じてほかのクラスタノードを再起動する
ボリューム管理回復を行う

次に、SPARCstorage Array の WWN を変更する詳しい手順を示します。

障害が発生した SPARCstorage Array コントローラが定足数デバイスの場合は、scconf(1M) コマンドを使用して新しい定足数コントローラを選択します。

詳細は、scconf(1M) のマニュアルページを参照してください。

修復する SPARCstorage Array に接続されているクラスタノードで、Sun Cluster ソフトウェアを停止し、続いてシステムを停止します。

scadmin(1M) コマンドを使用し、すべての論理ホストの所有権をクラスタ内のほかのノードに移し、Sun Cluster を停止してください。続いて、halt(1M) コマンドを実行してマシンを停止してください。

次の例では、phys-hahost2 が修復作業が行われるノードです。
phys-hahost2# scadmin stopnode ... phys-hahost2# halt

故障した SPARCstorage Array の WWN を確認します。
- SPARCstorage Array の電源が落ちている場合は、次の方法で WWN を確認してください。
  
  WWN は、12 桁の 16 進数で構成されています。これらの数字は、デバイスパスコンポーネントの一部として示されます。WWN は、pln@a0 という文字の後に続く最後の 12 桁 (コンマを除く) です。現在の WWN を確認するには、SPARCstorage Array に接続されているクラスタノードで、ls(1) コマンドを実行してください。
# ls -l /dev/rdsk/cNt0d0s0 ...SUNW,pln@a0000000,7412bf ...
この例では、SPARCstorage Array の WWN は 0000007412bf です。デバイス名の中の変数 N は、故障した SPARCstorage Array のコントローラ番号を示します。文字列「t0d0s0」は、1 つの例です。SPARCstorage Array 上に存在するデバイス名を使用するか、すべてのデバイスを指定するように /dev/rdsk/cN* を使用してください。
- SPARCstorage Array が稼動中の場合は、luxadm(1M) コマンドを使用して WWN を確認できます。
  
  display オプションを指定して luxadm(1M) を実行し、コントローラを指定すると、SPARCstorage Array の情報がすべて表示されます。luxadm(1M) が示すシリアル番号が WWN です。
phys-hahost1# /usr/sbin/luxadm display cN

コントローラまたは SPARCstorage Array を交換します。

この手順を行うには、SPARCstorage Array のサービスマニュアル内の操作説明に従ってください。

SPARCstorage Array が完全には故障していない場合や、コントローラ障害以外のほかの理由で交換する場合は、SPARCstorage Array の各トレーごとに「SPARCstorage Array トレーの管理」で説明されている手順を実行して、交換の準備を行なってください。

SPARCstorage Array コントローラが完全に故障した場合は、ボリューム管理ソフトウェアによって交換の用意ができています。

停止されたノードで OpenBoot PROM モードに入り、「mini-unix」を指定して起動します。

製品 CD (またはネットワーク上の同等プログラム) を使用して、メンテナンスシステムをシングルユーザーモードに設定し、新しい SPARCstorage Array の WWN を含むデバイス構造のメモリ内バージョンを取得します。
<#0> ok boot cdrom -s または <#0> ok boot netqe1 -s
デバイス情報が永続的に変更されることを避けるために、「mini-unix」を使用してください。

新しい SPARCstorage Array のコントローラ番号を確認します。

ls(1) コマンドと新しい SPARCstorage Array の LCD 画面に表示される 4 桁で、コントローラ番号を確認してください。

次の例では、LCD 画面に表示された 4 桁は 143b です。デバイス名 c*t0d0s0 はコントローラ番号のパターンマッチングを使用していますが、存在が明らかなスライスを指定しています。これは、出力される行の数を減らすためです。

# ls -l /dev/rdsk/c*t0d0s0 | grep -i 143b
lrwxrwxrwx   1 root     root          98 Mar 14 13:38
 /dev/rdsk/c3t0d0s0 ->
 ../../devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@3,0/SUNW
 ,pln@a0000000,74143b/ssd@0,0:a,raw

この例では、/dev/rdsk/c3... に示された 3 が「mini-unix」における新しい SPARCstorage Array のコントローラ番号です。

注 -

この LCD 画面内の 16 進数字は、大文字と小文字が混在した例です (文字 A、C、E、F は大文字、文字 b と d は小文字)。この例は、grep -i を使用して大文字と小文字の区別を無視しています。

luxadm download コマンドを実行して、WWN を設定します。

手順 6 で確認したコントローラ番号を使用してください。たとえば、次のコマンドは、WWN を現在の値から手順 3 で確認した値 0000007412bf に変更します。SPARCstorage Array コントローラは、c3 です。
phys-hahost2# /usr/sbin/luxadm download -w 0000007412bf c3
注 -
先頭のゼロは、合計 12 桁にするために WWN の一部として必ず入力する必要があります。

注意 -
ダウンロード処理は中断しないでください。luxadm(1M) コマンドが終了し、シェルプロンプトが表示されるまで待ってください。

SPARCstorage Array 装置にある「SYS OK」ボタンを押し、リセットします。

装置が再起動し、Sun Cluster ノードと通信を開始するまで少々時間がかかります。

「mini-unix」を終了し、通常どおりホストを起動します。

コンソールにブレークを送信し、マシンを起動してください。

クラスタノードから、SPARCstorage Array のファームウェアレベルを確認します。

ファームウェアの現行バージョンを確認するには、luxadm(1M) コマンドを使用します。この場合は、luxadm(1M) コマンドに、コントローラ番号 (次の例の N) を指定してください。
phys-hahost2# /usr/sbin/luxadm display cN
注 -
システム上に古いファームウェアが検出されると、Solaris システムはコンソールと /var/adm/messages に次のようなメッセージを表示します。
NOTICE: pln0: Old SSA firmware has been detected (Ver:3.11) : Expected (Ver:3.12) - Please upgrade

(省略可能) コントローラのファームウェアをアップグレードする場合は、次の手順に従います。
1. 適切なファームウェアをダウンロードします。詳細は、ファームウェアパッチ内の README ファイルを参照してください。
  # /usr/sbin/ssaadm download -f path/ssafirmware cN
  pathは、ファームウェアが格納されているディレクトリのパスです。N は、コントローラ番号です。次に例を示します。
  # /usr/sbin/ssaadm download -f /usr/lib/firmware/ssa/ssafirmware cN
2. SPARCstorage Array 装置にある「SYS OK」ボタンを押し、リセットします。
  
  装置が再起動するまで少々時間がかかります。
3. ファームウェアレベルを再度確認します (手順 10を参照)。ファームウェアレベルまたは WWN が依然として不正な場合は、別のコントローラを使用して手順 11を繰り返してください。

ノードを起動します。
phys-hahost2# scadmin startnode

必要に応じて、論理ホストをデフォルトのマスターにスイッチバックします。

修復された SPARCstorage Array にボリュームマネージャコンポーネントを復元して、交換を完了します。

この方法は、「SPARCstorage Array トレーの管理」に示されています。

必要に応じて、クラスタ内のほかのノードを再起動します。

交換後 SPARCstorage Array 内のすべてのディスクを認識できないクラスタノードが存在する場合は、必要に応じてそれらを再起動してください。このためには、scadmin stopnode コマンドを使用して Sun Cluster の処理を停止し、その後再起動します。再起動後、必要に応じて論理ホストをそれらのデフォルトマスターにスイッチバックしてください。詳細は、scadmin(1M) マニュアルページを参照してください。

SPARCstorage Array ディスクの管理

標準の Sun Cluster 管理の一環として、構成状態を監視することをお勧めします。監視方法の詳細は、第 2 章「Sun Cluster の管理ツール」を参照してください。監視処理で、多重ホストディスクの障害が発見される場合があります。この節では、この障害を解決する方法について説明します。

Sun Cluster は、次の SPARCstorage Array ディスクをサポートします。

Model 100 シリーズ
差動型トレーが搭載された Model 200 シリーズ
RSM (214 RSM) が搭載された Model 200 シリーズ

ディスクを追加するには、使用しているディスクの種類とディスク格納装置の電気的な特徴と機構上の特徴に応じて、特定のコントローラに接続されたすべてのディスク、特定のトレー内のすべてのディスク、または追加するディスクだけを用意します。たとえば、差動型 SCSI トレーが搭載された SPARCstorage Array 200 シリーズでは、SPARCstorage Array コントローラとディスク格納装置を用意する必要があります。RSM (214 RSM) が搭載された SPARCstorage Array 200 シリーズでは、新しいディスクだけを用意します。SPARCstorage Array 110 では、トレーを 1 つ用意します。

SPARCstorage Array 100 シリーズを使用している場合は、以下に説明されている手順に従ってください。差動型 SCSI トレーが搭載された SPARCstorage Array 200 シリーズを使用している場合は、新しいディスクに接続する SPARCstorage Array コントローラに接続されたすべてのディスクを停止する必要があります。つまり、新しいディスクに接続するアレイコントローラに接続されたすべてのディスク格納装置について、トレー固有の手順をすべて繰り返します。SPARCstorage Array 214 RSM を使用している場合は、個々のディスクドライブはほかのディスクに影響を与えずに設置が可能なため、トレー固有の手順を実行する必要はありません。

ディスク格納装置の詳細は、多重ホストディスク格納装置のハードウェアサービスマニュアルを参照してください。

SPARCstorage Array ディスクの追加

SPARCstorage Array (SSA) の多重ホストディスクを追加するには、ディスク格納装置に応じて、影響を受けるディスクトレーまたはディスク格納装置内のすべてのボリュームマネージャオブジェクトをオフラインにします。ディスクトレーまたはディスク格納装置は、複数のディスクグループのディスクを搭載していることもあります。この場合は、影響を受けるディスクグループをすべて単一のノードが所有する必要があります。

SPARCstorage Array ディスクを追加するには (Solstice DiskSuite)

次に、Solstice DiskSuite 構成で多重ホストディスクを追加する手順の概略を示します。

論理ホストをほかのクラスタノードに切り替える
新しいディスクのコントローラを確認し、トレーまたは格納装置内の空のスロットを見つける
Model 100 シリーズの SPARCstorage Array では、ディスクトレーを取り外すための用意をディスク格納装置で行う
ワイド差動型 SCSI ディスクトレーが搭載された Model 200 シリーズの SPARCstorage Array では、コントローラおよび接続されたすべてのディスクの電源を切る
影響を受けるドライブからすべてのホットスペアを削除する
影響を受けるドライブからすべてのメタデバイス状態データベースを削除する
影響を受けるドライブを含むすべてのメタデバイスをオフラインにする
影響を受けるすべてのドライブを停止する
新しいディスクを追加する
影響を受けるドライブを稼動状態に戻す
- すべてのドライブを起動する
- 影響を受けるすべてのメタデバイスをオンラインに戻す
- 削除したホットスペアをすべて追加し直す
- 削除したメタデバイスをすべて作成し直す
ディスクを Sun Cluster で使用するための管理作業を行う
- /devices 特殊ファイル、/dev/dsk リンク、/dev/rdsk リンクを作成する
- scdidadm -r コマンドを実行する
- ディスクをディスクセットに加える
- 必要に応じて、ディスクのフォーマットとパーティション分割を行う
- ボリュームマネージャ関連の管理作業を行う

次に、Solstice DiskSuite 構成に新しい多重ホストディスクを追加する詳しい手順を示します。

新しいディスクを含む予定の論理ホストの所有権を、クラスタ内のほかのノードに切り替えます。

取り外すトレー内のディスクを含む論理ホストをすべてスイッチオーバーしてください。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2

ディスクの追加先であるトレーのコントローラ番号を確認します。

SPARCstorage Array には、WWN が割り当てられています。SPARCstorage Array の LCD 画面に表示される WWN は、コントローラ番号が入った /dev エントリにポインタによってリンクされている /devices エントリの一部としても表示されます。次に例を示します。

phys-hahost1# ls -l /dev/rdsk | grep -i WWN | tail -1

SPARCstorage Array の LCD 画面に表示される WWN が 36cc の場合は、次の出力が表示されます。コントローラ番号は c2 です。

phys-hahost1# ls -l /dev/rdsk | grep -i 36cc | tail -1
lrwxrwxrwx  1 root   root       94 Jun 25 22:39 c2t5d2s7 ->
 ../../devices/io-
 unit@f,e1200000/sbi@0,0/SUNW,soc@3,0/SUNW,pln@a0000800,201836cc/
 ssd@5,2:h,raw

display オプションを指定して luxadm(1M) コマンドを実行し、空のスロットを確認します。

phys-hahost1# luxadm display c2
 
                      SPARCstorage Array Configuration
 ...
                           DEVICE STATUS
       TRAY 1                 TRAY 2                 TRAY 3
 slot
 1     Drive: 0,0             Drive: 2,0             Drive: 4,0
 2     Drive: 0,1             Drive: 2,1             Drive: 4,1
 3     NO SELECT              NO SELECT              NO SELECT
 4     NO SELECT              NO SELECT              NO SELECT
 5     NO SELECT              NO SELECT              NO SELECT
 6     Drive: 1,0             Drive: 3,0             Drive: 5,0
 7     Drive: 1,1             NO SELECT              NO SELECT
 8     NO SELECT              NO SELECT              NO SELECT
 9     NO SELECT              NO SELECT              NO SELECT
 10    NO SELECT              NO SELECT              NO SELECT
 ...

空のスロットは、状態が NO SELECT で示されます。この出力例は、SPARCstorage Array 110 のものです。別のシリーズの SPARCstorage Array を使用している場合は、表示が多少異なります。

新しいディスクを追加するトレーを決定してください。SPARCstorage Array 214 RSM のようにほかのドライブに影響を与えずにディスクを追加できる場合は、手順 11 に進んでください。

これ以降の手順では、トレー 2 が例として使用されています。新しいディスク用に選択されるスロットは、トレー 2 のスロット 7 です。新しいディスクは、c2t3d1 として認識されます。

ディスクの追加によって影響を受けるホットスペアをすべて見つけます。

すべてのホットスペアの状態と位置を確認するには、各論理ホストで -i オプションを指定して metahs(1M) コマンドを実行します。
phys-hahost1# metahs -s hahost1 -i ... phys-hahost1# metahs -s hahost2 -i ...
注 -
ホットスペアの一覧を保存してください。この一覧は、後でこの保守作業で使用します。ホットスペアデバイスとそれらのホットスペアプールは必ず書き留めてください。

-d オプションを指定して metahs(1M) コマンドを実行し、影響を受けるホットスペアを削除します。

metahs(1M) コマンドの詳細は、マニュアルページを参照してください。
phys-hahost1# metahs -s hahost1 -d hot-spare-pool components phys-hahost1# metahs -s hahost2 -d hot-spare-pool components

影響を受けるディスク上に存在するメタデバイス状態データベースの複製をすべて見つけます。

各論理ホストで metadb(1M) コマンドを実行してすべてのメタデバイス状態データベースを見つけ、出力を一時ファイルに保存してください。
phys-hahost1# metadb -s hahost1 > /usr/tmp/mddb1 phys-hahost1# metadb -s hahost2 > /usr/tmp/mddb2
metadb(1M) の出力は、ディスク格納装置内のメタデバイス状態データベースの複製の位置を示します。複製を復元する手順で使用できるように、この情報を保存しておいてください。

影響を受けるディスク上に存在するメタデバイス状態データベースの複製を削除します。

後の手順で複製を復元する必要があるため、削除する複製の数とロケールを記録しておいてください。
phys-hahost1# metadb -s hahost1 -d replicas phys-hahost1# metadb -s hahost2 -d replicas

metastat(1M) コマンドを実行し、影響を受けるディスク上のすべてのメタデバイスコンポーネントを確認します。

メタデバイスの削除と再追加を行う場合に情報を使用できるように、metastat(1M) の出力を一時ファイルに保存しておいてください。
phys-hahost1# metastat -s hahost1 > /usr/tmp/replicalog1 phys-hahost1# metastat -s hahost2 > /usr/tmp/replicalog2

影響を受けるディスクを含むすべてのサブミラーをオフラインにします。

ディスク格納装置内の影響を受けるすべてのサブミラーをオフラインにするため、一時ファイルを使用してスクリプトを作成してください。わずかなサブミラーしか存在しない場合は、metaoffline(1M) コマンドを実行し、個々にオフラインにしてください。次にスクリプト例を示します。
#!/bin/sh # metaoffline -s <diskset> <mirror> <submirror> metaoffline -s hahost1 d15 d35 metaoffline -s hahost2 d15 d35 ...

影響を受けるディスクを停止します。

luxadm(1M) コマンドを使用して、トレー内の SPARCstorage Array ディスクを停止してください。
phys-hahost1# luxadm stop -t 2 c2

新しいディスクを追加します。

多重ホストディスク格納装置のサービスマニュアルに示された方法で、ディスクを追加するためのハードウェア上の作業を行なってください。ディスクを追加した後、次のどちらかを選択してください。
- ディスク格納装置が SPARCstorage Array 214 RSM の場合は、手順 16に進んでください (このディスクはほかのドライブに影響を与えずに追加が可能です)。
- 214 RSM 以外の SPARCstorage Array の場合は、手順 12に進んでください。

トレー内のすべてのディスクが起動していることを確認します。

SPARCstorage Array トレー内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c2

サブミラーをオンラインに戻します。

手順 9 で作成したスクリプトを変更し、サブミラーをオンラインに戻してください。
#!/bin/sh # metaonline -s <diskset> <mirror> <submirror> metaonline -s hahost1 d15 d35 metaonline -s hahost2 d15 d35 ...

手順 5で削除したホットスペアを復元します。

phys-hahost1# metahs -s hahost1 -a hot-spare-pool components
phys-hahost1# metahs -s hahost2 -a hot-spare-pool components

本来の数のメタデバイス状態データベースの複製を、トレー内のデバイスに復元します。

複製は、手順 7 で削除されています。
phys-hahost1# metadb -s hahost1 -a replicas phys-hahost1# metadb -s hahost2 -a replicas

drvconfig(1M) と disks(1M) コマンドを実行し、すべての新しいディスクの /devices、/dev/dsk、/dev/rdsk に新しいエントリを作成します。
phys-hahost1# drvconfig phys-hahost1# disks

このディスクの追加先である論理ホストの所有権を、SPARCstorage Array に接続されているほかのノードに切り替えます。

これは、各ディスクが 2 つのノードに接続されるトポロジを想定しています。
phys-hahost1# haswitch phys-hahost2 hahost2

このディスクの追加先であるディスクセットを現在所有しているクラスタノードで、drvconfig(1M) と disks(1M) コマンドを実行します。
phys-hahost2# drvconfig phys-hahost2# disks

scdidadm(1M) コマンドを実行し、新しいディスクが DID 疑似ドライバによって使用されるように初期化します。

scdidadm(1M) コマンドは、クラスタのノード 0 で実行する必要があります。DID 疑似ドライバの詳細は、『Sun Cluster 2.2 ソフトウェアのインストール』を参照してください。
phys-hahost2# scdidadm -r

ディスクをディスクセットに追加します。

コマンド構文を次に示します。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -a drive
注意 -
metaset(1M) コマンドは、ディスクを自動的に再分割することがあります。詳細は、Solstice DiskSuite のマニュアルを参照してください。

scadmin(1M) コマンドを使用して、ディスクセットに追加した新しいディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost2# scadmin reserve cNtXdYsZ

新しいディスクに対し、通常の管理作業を行います。

続いて、新しいドライブをサービスに加えるための通常の管理手順 (ディスクをパーティション分割する、ディスクをホットスペアとして構成に追加する、ディスクをメタデバイスとして構成するなど) を実行できます。これらの作業の詳細は、Solstice DiskSuite のマニュアルを参照してください。

必要に応じて、論理ホストをそのデフォルトマスターにスイッチバックします。

SPARCstorage Array ディスクを追加するには (SSVM、CVM)

次に、SSVM または CVM 構成で多重ホストディスクを追加する手順の概略を示します。

論理ホストをほかのクラスタノードに切り替える
この新しいディスクのコントローラを確認し、トレーまたは格納装置内の空のスロットを見つける
Model 100 シリーズの SPARCstorage Array では、ディスクトレーを取り外すための用意をディスク格納装置で行う
ワイド差動型 SCSI ディスクトレーが搭載された Model 200 シリーズの SPARCstorage Array では、コントローラおよび接続されたすべてのディスクの電源を切る
影響を受けるトレー上の SSVM または CVM オブジェクトを確認する
影響を受けるトレー上にサブディスクを持つボリュームの I/O を停止する
新しいディスクを追加する
影響を受けるドライブをサービスに戻す
- すべてのドライブを起動する
- 影響を受ける SSVM または CVM オブジェクトをオンラインに戻す
ディスクを Sun Cluster で使用するための管理作業を行う
- /devices 特殊ファイル、/dev/dsk リンク、/dev/rdsk リンクを作成する
- 新しいディスクを走査する
- ディスクをボリュームマネージャの制御下に加える
- 必要に応じて、ディスクのフォーマットとパーティション分割を行う
- ボリュームマネージャ関連の管理作業を行う

次に、SSVM 構成に新しい多重ホストディスクを追加する詳しい手順を示します。

新しいディスクを含む予定の論理ホストの所有権を、クラスタ内のほかのノードに切り替えます。

取り外すトレー内のディスクを含む論理ホストをスイッチオーバーしてください。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2
注 -
ミラー化された構成では、ノードが停止されていないかぎり論理ホストを切り替える必要はありません。

ディスクの追加先であるトレーのコントローラ番号を確認します。

phys-hahost1# ls -l /dev/rdsk | grep -i WWN | tail -1

SPARCstorage Array の LCD 画面に表示される WWN が 36cc の場合は、次の出力が表示されます。コントローラ番号は c2 です。

phys-hahost1# ls -l /dev/rdsk | grep -i 36cc | tail -1
lrwxrwxrwx  1 root   root       94 Jun 25 22:39 c2t5d2s7 ->
 ../../devices/io-
 unit@f,e1200000/sbi@0,0/SUNW,soc@3,0/SUNW,pln@a0000800,201836cc/
 ssd@5,2:h,raw
 phys-hahost1#

display オプションを指定して luxadm(1M) コマンドを実行し、空のスロットを確認します。

ほかのドライブに影響を与えずにディスクを追加できる場合は、手順 11に進んでください。

phys-hahost1# luxadm display c2
 
                      SPARCstorage Array Configuration
 ...
                           DEVICE STATUS
       TRAY 1                 TRAY 2                 TRAY 3
 slot
 1     Drive: 0,0             Drive: 2,0             Drive: 4,0
 2     Drive: 0,1             Drive: 2,1             Drive: 4,1
 3     NO SELECT              NO SELECT              NO SELECT
 4     NO SELECT              NO SELECT              NO SELECT
 5     NO SELECT              NO SELECT              NO SELECT
 6     Drive: 1,0             Drive: 3,0             Drive: 5,0
 7     Drive: 1,1             NO SELECT              NO SELECT
 8     NO SELECT              NO SELECT              NO SELECT
 9     NO SELECT              NO SELECT              NO SELECT
 10    NO SELECT              NO SELECT              NO SELECT
 ...

空のスロットは、状態が NO SELECT で示されます。この出力例は、SPARCstorage Array 110 のものです。別のシリーズの SPARCstorage Array を使用している場合は、表示が多少異なります。

新しいディスクを追加するトレーを決定してください。

新しいディスクが含まれるトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
1. 物理デバイスアドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
  
  この例では、コントローラ番号は 2 で、ターゲット番号は 3 です。
2. vxdisk list の出力から、デバイスを確認します。
  
  次に、vxdisk を使用して情報を取得する例を示します。
  # vxdisk -g diskgroup -q list | nawk '/^c2/ {print $3}'
  コマンドの出力から、ディスクのボリュームメディア名を記録しておきます。
3. 次のコマンドの該当するバージョン (csh、ksh、または Bourne シェル) を使用して、上記のデバイス上のすべてのプレックスを確認します。
  PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c2t3d0")) && (pl_kstate=ENABLED)' | nawk '{print $2}'`
  csh では、構文は set PLLIST .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。

変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。

トレーに対応したすべてのボリュームが切り離されたか (ミラー構成または RAID5 構成)、あるいは停止された (シンプルプレックス) ことを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex -g diskgroup det ${PLLIST}
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex
シンプルプレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、あるいはデータベースアクセスを停止します。

注 -
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはまだアクティブなままです。

新しいディスクを追加します。

多重ホストディスク格納装置のサービスマニュアルに示された方法で、ディスクを追加するためのハードウェア上の作業を行なってください。

トレー内のすべてのディスクが起動していることを確認します。

SPARCstorage Array トレー内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c2

drvconfig(1M) と disks(1M) コマンドを実行し、すべての新しいディスクの /devices、/dev/dsk、/dev/rdsk に新しいエントリを作成します。
phys-hahost1# drvconfig phys-hahost1# disks

SSVM の vxconfigd ドライバによって、新しいディスクの走査を行います。
phys-hahost1# vxdctl enable

vxdiskadd コマンドを使用して、新しいディスクをボリュームマネージャの制御下に加えます。

新しいディスクに対し、通常の管理作業を行います。

新しいドライブをサービスに加える通常の管理手順 (ディスクをパーティション分割する、ディスクをホットスペアとして構成に追加する、ディスクをメタデバイスとして構成するなど) を実行できます。

以上で、既存の SPARCstorage Array に多重ホストディスクを追加する作業は終了です。

SPARCstorage Array ディスクの交換

この節では、ボリュームマネージャによって次のような問題が報告された場合に、Sun Cluster サービスを中断することなく SPARCstorage Array (SSA) の多重ホストディスクを交換する方法 (オンライン交換) について説明します。

保守状態 (Needs Maintenance) のコンポーネント
ホットスペアの交換
断続的なディスクエラー

SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)

次に、Solstice DiskSuite 構成で、多重ホストディスクを交換する手順の概略を示します。この作業の手順の一部は、SPARCstorage Array 100 シリーズまたは差動型 SCSI トレーを搭載した SPARCstorage Array 200 シリーズを使用した構成にだけ適用されます。

論理ホストをほかのクラスタノードに切り替える
交換する必要のあるディスクを確認する
交換する必要のあるディスクが含まれているトレーを確認する
(SSA と SSA 200 のみ) 影響を受けるトレーまたはディスク格納装置上のサブミラーを切り離す
(SSA 100 と SSA 200 のみ) 切り離したサブミラーで metaclear(1M) を実行する
(SSA 100 と SSA 200 のみ) 影響を受けるディスクトレー内の使用できるホットスペアを削除する
ディスクセットから障害のあるディスクを削除する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のディスクに存在する、影響を受けるすべてのメタデバイス状態データベースの複製を削除する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のメタデバイスの一覧を生成する
(SSA 100 と SSA 200 のみ) 影響を受けるトレー内のサブミラー、またはトレー内のホットスペアを使用するサブミラーに対して、metaoffline(1M) を実行する
(SSA 100 と SSA 200 のみ) NVRAM が有効になっている場合はフラッシュする
ディスクを停止し、トレーまたはディスク格納装置を取り外す
ディスクドライブを交換する
scdidadm -R コマンドを実行する
ディスクセットに新しいディスクを追加する
新しいディスクに対してフェイルファストの予約と有効化を行う
新しいディスクをパーティション分割する
(SSA 100 と SSA 200 のみ) metaclear(1M) コマンドで消去したデバイスを、metainit(1M) コマンドを使用して初期化する
(SSA 100 と SSA 200 のみ) metaonline(1M) コマンドを実行して、オフラインのミラーをオンラインに戻し、再同期をとる
(SSA 100 と SSA 200 のみ) 切り離したサブミラーを接続する
(SSA 100 と SSA 200 のみ) 接続したサブミラー内で使用されているホットスペアを交換する
(SSA 100 と SSA 200 のみ) 削除したホットスペアデバイスを本来のホットスペアプールに戻す
metastat(1M) コマンドを実行して、障害が修復されたことを確認する

次に、Solstice DiskSuite 構成で、障害が発生した多重ホストディスクを交換する詳しい手順を示します。

haswitch(1M) コマンドを使用して、影響を受ける論理ホストの所有権をほかのノードに切り替えます。
phys-hahost1# haswitch phys-hahost1 hahost1 hahost2
障害が発生したディスクが含まれている SPARCstorage Array トレーには、複数の論理ホストに含まれるディスクが搭載されている場合があります。このような場合は、このトレーを使用しているディスクを含むすべての論理ホストの所有権を、クラスタ内の別のノードに切り替えてください。

metastat(1M) と /var/adm/messages の出力を調べて、交換が必要なディスクを確認します。

デバイスが保守状態 (Needs Maintenance) にあるか、コンポーネントの一部がホットスペアに置き換わっていることが metastat(1M) によって報告された場合は、そのデバイスを見つけ、交換する必要があります。次に、metastat(1M) の出力例を示します。この例では、デバイス c3t3d4s0 がメンテナンス状態です。

phys-hahost1# metastat -s hahost1
...
  d50:Submirror of hahost1/d40
       State: Needs Maintenance
       Stripe 0:
           Device       Start Block      Dbase      State          Hot Spare
           c3t3d4s0     0                No         Okay           c3t5d4s0
 ...

/var/adm/messages を検査し、どのような問題が検出されたかを確認してください。

...
Jun 1 16:15:26 host1 unix: WARNING: /io-
unit@f,e1200000/sbi@0.0/SUNW,pln@a0000000,741022/ssd@3,4(ssd49):  
Jun 1 16:15:26 host1 unix: Error for command `write(I))' Err
Jun 1 16:15:27 host1 unix: or Level: Fatal
Jun 1 16:15:27 host1 unix: Requested Block 144004, Error Block: 715559
Jun 1 16:15:27 host1 unix: Sense Key: Media Error
Jun 1 16:15:27 host1 unix: Vendor `CONNER':
Jun 1 16:15:27 host1 unix: ASC=0x10(ID CRC or ECC error),ASCQ=0x0,FRU=0x15
...

luxadm(1M) コマンドを実行して、障害のあるディスクの位置を確認します。

luxadm(1M) コマンドは、トレーとトレーに対応するドライブの一覧を表示します。この出力は、SPARCstorage Array シリーズごとに異なります。次の例は、SPARCstorage Array 100 シリーズの出力です。この例では故障したドライブを、強調表示しています。

phys-hahost1# luxadm display c3
         SPARCstorage Array Configuration
 Controller path:
 /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@
 a0000000,779a16:ctlr
          DEVICE STATUS
          TRAY1          TRAY2          TRAY3
 Slot
 1        Drive:0,0      Drive:2,0      Drive:4,0
 2        Drive:0,1      Drive:2,1      Drive:4,1
 3        Drive:0,2      Drive:2,2      Drive:4,2
 4        Drive:0,3      Drive:2,3      Drive:4,3
 5        Drive:0,4      Drive:2,4      Drive:4,4
 6        Drive:1,0      Drive:3,0      Drive:5,0
 7        Drive:1,1      Drive:3,1      Drive:5,1
 8        Drive:1,2      Drive:3,2      Drive:5,2
 9        Drive:1,3      Drive:3,3      Drive:5,3
 10       Drive:1,4      Drive:3,4      Drive:5,4
 
          CONTROLLER STATUS
 Vendor:    SUN
 Product ID:  SSA110
 Product Rev: 1.0
 Firmware Rev: 3.9
 Serial Num: 000000741022
 Accumulate performance Statistics: Enabled

交換するディスク上のコンポーネントを含むサブミラーを切り離します。

障害が発生したコンポーネントを含むサブミラーを切り離す場合は、metadetach -f コマンドを使用して切り離してください。次のコマンド例は、メタミラー d40 からサブミラー d50 を切り離します。
phys-hahost1# metadetach -s hahost1 -f d40 d50

metaclear(1M) コマンドを実行して、手順 4 で切り離されたサブミラーを消去します。
phys-hahost1# metaclear -s hahost1 -f d50

複製とホットスペアを削除する前に、位置 (スライス)、複製の数、ホットスペア情報 (デバイスの名前とホットスペアプールが入ったデバイスの一覧) を記録しておきます。これは、ディスクを交換した後で逆の作業を行えるようにするためです。

障害ディスクと同じトレーに存在する Available 状態のホットスペアをすべて削除します。

論理ホストの割り当てにかかわらず、すべてのホットスペアを削除してください。次の例では、metahs(1M) コマンドは hahost1 上のホットスペアを報告し、hahost2 にはホットスペアが存在しないことを示しています。

phys-hahost1# metahs -s hahost1 -i
 hahost1:hsp000 2 hot spares
         c1t4d0s0                Available       2026080 blocks
         c3t2d5s0                Available       2026080 blocks
 phys-hahost1# metahs -s hahost1 -d hsp000 c3t2d4s0
 hahost1:hsp000:
         Hotspare is deleted
 phys-hahost1# metahs -s hahost2 -i
 phys-hahost1#
 hahost1:hsp000 1 hot spare
 			c3t2d5s0                Available       2026080 blocks

metaset(1M) コマンドを使用して、ディスクセットから障害が発生したディスクを削除します。

このコマンドの構文を次に示します。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -d drive
この処理は、構成のサイズとディスクの数に応じて 15 分以上かかります。

サービスを受けるトレー内のディスクに存在するすべてのメタデバイス状態データベースの複製を削除します。

-s オプションを指定して metadb(1M) コマンドを実行すると、指定されたディスクセット内の複製が表示されます。
phys-hahost1# metadb -s hahost1 phys-hahost1# metadb -s hahost2 phys-hahost1# metadb -s hahost1 -d replicas-in-tray phys-hahost1# metadb -s hahost2 -d replicas-in-tray

影響を受けるトレー内に存在するコンポーネントを使用するサブミラーを特定します。

1 つの方法として、metastat(1M) コマンドを使用して、すべてのメタデバイスの名前が入った一時ファイルを作成できます。次に例を示します。

phys-hahost1# metastat -s hahost1 > /usr/tmp/hahost1.stat
phys-hahost1# metastat -s hahost2 > /usr/tmp/hahost2.stat

これらのコンポーネント (この例では c3t3dn と c3t2dn) の一時ファイルを検索してください。一時ファイルの内容の例を次に示します。

...
 hahost1/d35: Submirror of hahost1/d15
    State: Okay
    Hot Spare pool: hahost1/hsp100
    Size: 2026080 blocks
    Stripe 0:
       Device      Start Block     Dbase     State      Hot Spare
       c3t3d3s0    0               No        Okay      
 hahost1/d54: Submirror of hahost1/d24
    State: Okay
    Hot Spare pool: hahost1/hsp106
    Size: 21168 blocks
    Stripe 0:
       Device      Start Block     Dbase     State      Hot Spare
       c3t3d3s6    0               No        Okay      
 ...

影響を受けるトレー内のコンポーネントを持つほかのすべてのサブミラーをオフラインにします。

手順 10 の一時ファイルの出力を参照して、影響を受けるトレー内のすべてのサブミラーに対して metaoffline(1M) を実行します。
phys-hahost1# metaoffline -s hahost1 d15 d35 phys-hahost1# metaoffline -s hahost1 d24 d54 ...
metaoffline(1M) は、すべてのサブミラーがオンラインになるまで必要な回数実行してください。このコマンドは、Solstice DiskSuite によるサブミラーコンポーネントの使用を停止します。

コントローラ、トレー、個々のディスク、または複数のディスクで NVRAM が有効になっている場合は、NVRAM をフラッシュします。
phys-hahost1# luxadm sync_cache pathname
NVRAM がフラッシュされたことを示す確認メッセージが表示されます。NVRAM データのフラッシュの詳細は、「NVRAM のフラッシュとパージ」を参照してください。

影響を受ける SPARCstorage Array トレー内のすべてのディスクを停止します。

luxadm stop コマンドを使用して、ディスクを停止してください。詳細は、luxadm(1M) のマニュアルページを参照してください。
phys-hahost1# luxadm stop -t 2 c3
注意 -
Solstice DiskSuite コマンドは、トレー内のドライブ (一部またはすべて) の起動に二次的な影響を与える可能性があります。そのため、SPARCstorage Array トレーが停止している間は、Solstice DiskSuite コマンドを実行しないでください。

ディスクを交換します。

この作業の詳細は、SPARCstorage Array のハードウェアサービスマニュアルを参照してください。

新しいデバイス ID を使用して、DID ドライバのデータベースを更新します。

-l フラグを指定して scdidadm(1M) を実行し、交換するドライブの低レベルデバイス名の DID 名を確認してください。次に、-R フラグを指定して scdidadm(1M) を実行し、DID ドライブデータベースを更新してください。DID 疑似ドライバの詳細は、『Sun Cluster 2.2 ソフトウェアのインストール』を参照してください。
phys-hahost1# scdidadm -o name -l /dev/rdsk/c3t3d4 6 phys-hahost1:/dev/rdsk/c3t3d4 /dev/did/rdsk/d6 phys-hahost1# scdidadm -R d6

影響を受ける多重ホストディスク格納装置内のすべてのディスクが起動していることを確認します。

多重ホストディスク格納装置内のディスクは通常自動的に起動しますが、2 分以内に起動しない場合は、次のコマンドを使用して強制的に起動してください。
phys-hahost1# luxadm start -t 2 c3

metaset(1M) コマンドを使用して、ディスクセットに新しいディスクを追加し直します。

この手順により、障害が発生したディスクから削除された数の複製が自動的に追加し直されます。コマンド構文は次のとおりです。diskset には、障害が発生したディスクを含むディスクセットの名前を指定します。drive には、ディスクの DID 名を dN (Sun Cluster を新たにインストールする場合) または cNtYdZ (HA 1.3 からアップグレードする場合) の形式で指定します。
# metaset -s diskset -a drive

(省略可能) エラーが発生したディスクと同じトレーに存在したディスクからほかのディスクセットに属していた複製を削除した場合は、metadb(1M) コマンドを使用して複製を追加し直してください。
phys-hahost1# metadb -s hahost2 -a deleted-replicas
同じスライスに複数の複製を追加するには、-c オプションを使用してください。

scadmin(1M) コマンドを使用して、ディスクセットに追加されたばかりのディスクに対してフェイルファストの予約と有効化を行います。
phys-hahost2# scadmin reserve c3t3d4

format(1M) または fmthard(1M) コマンドを使用して、新しいディスクのパーティション分割を行います。

この場合は、交換されたディスクとまったく同じように分割してください (第 1 章「Sun Cluster の管理の準備」でディスクのフォーマット情報を保存するように推奨しています)。

metainit(1M) コマンドを使用して、手順 5 で消去したディスクの初期化を再度行います。
phys-hahost1# metainit -s hahost1 d50

手順 11でオフラインにしたサブミラーをすべてオンラインに戻します。
phys-hahost1# metaonline -s hahost1 d15 d35 phys-hahost1# metaonline -s hahost1 d24 d54 ...
metaonline(1M) は、すべてのサブミラーがオンラインに戻るまで必要な回数実行してください。

サブミラーがオンラインに戻ると、Solstice DiskSuite はすべてのサブミラーの同期を自動的にとり直し、すべてのデータを最新の状態にします。

注 -
この時点で metastat(1M) コマンドを実行すると、影響を受けるトレーにコンポーネントが存在するすべてのメタデバイスの同期が取り直されていることが示されます。

手順 4で切り離したサブミラーを接続します。

この手順は、metattach(1M) コマンドを使用して行なってください。詳細は、metattach(1M) のマニュアルページを参照してください。
phys-hahost1# metattach -s hahost1 d40 d50

手順 23で接続したサブミラーで使用されているホットスペアを交換します。

サブミラーを切り離す前にサブミラーでホットスペアへの置き換えがあった場合は、この置き換えはサブミラーが再接続された後に有効になります。この手順は、ホットスペアを Available 状態に戻します。
phys-hahost1# metareplace -s hahost1 -e d40 c3t3d4s0

手順 7で削除したホットスペアをすべて復元します。

metahs(1M) コマンドを実行して、ホットスペアを追加し直してください。詳細は、metahs(1M) のマニュアルページを参照してください。
phys-hahost1# metahs -s hahost1 -a hsp000 c3t2d5s0

必要に応じて、論理ホストをそれらのデフォルトマスターにスイッチバックします。
phys-hahost1# haswitch phys-hahost2 hahost2

交換によって問題が解決されたことを確認します。
phys-hahost1# metastat -s hahost1

SPARCstorage Array ディスクを交換するには (SSVM、CVM)

SSVM または CVM 構成では、構成がミラー化されていれば、システムを停止せずに SPARCstorage Array ディスクを交換できます。

注 -

起動が可能な SPARCstorage Array 内のディスクを交換する必要がある場合は、ホストの起動ディスクが入った SSA トレーを取り外さないでください。この場合は、起動ディスクがそのトレー上に存在するホストを停止し、障害のあるディスクのサービスが始まる前にフェイルオーバーが有効になるように、残ったノードをクラスタソフトウェアによって再構成してください。詳細は、『SPARCstorage Array ユーザーマニュアル』を参照してください。

次に、SPARCstorage Array 100 シリーズを使用した SSVM 環境で多重ホストディスクを交換する手順の概略を示します。

障害のあるディスクが含まれるトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認する
障害のあるディスクのコントローラ番号とターゲット番号を確認する
vxdisk list コマンドを使用してトレー上のデバイスを確認する
影響を受けるトレー上のすべてのプレックスを確認する
影響を受けるトレー上のすべてのプレックスを切り離す
ディスクグループからディスクを削除する
トレー内のディスクを停止する
ディスクドライブを交換する
トレー内のドライブを起動する
新しいディスクドライブを初期化する
現在のディスク構成を走査する
ディスクグループに新しいディスクドライブを追加する
ボリュームの同期をとり直す

次に、SPARCstorage Array 100 シリーズディスクを使用した SSVM 環境で多重ホストディスクを交換する詳しい手順を示します。

交換するディスクが定足数デバイスの場合は、scconf -q コマンドを使用して定足数デバイスをほかのディスクに変更します。

障害のあるディスクが含まれているトレー内のディスクのすべてのボリュームおよび対応するプレックスを確認します。
1. 物理デバイスアドレス cNtNdN から、コントローラ番号とターゲット番号を取得します。
  
  たとえば、デバイスアドレスが c3t2d0 の場合、コントローラ番号は 3、ターゲット番号は 2 です。
2. vxdisk list の出力から、デバイスを確認します。
  
  ターゲット番号が 0 または 1 の場合、cNt0 と cNt1 から始まる物理アドレスを持つデバイスをすべて確認します (N はコントローラ番号)。ターゲット番号が 2 または 3 の場合、cNt2 と cNt3 から始まる物理アドレスを持つデバイスをすべて確認します。ターゲット番号が 4 または 5 の場合、cNt4 と cNt5 から始まる物理アドレスを持つデバイスをすべて確認します。次に、vxdisk を使用して情報を取得する例を示します。
  # vxdisk -g diskgroup-q list | egrep c3t2¥|c3t3 | nawk '{print $3}'
3. コマンドの出力から、障害のあるディスクのボリュームメディア名を記録しておきます。
  
  この名前は、手順 10 で必要になります。
4. 次のコマンドの該当するバージョン (csh、ksh、または Bourne シェル) を使用して、上記のデバイス上のすべてのプレックスを確認します。
  PLLIST=`vxprint -ptq -g diskgroup -e '(aslist.sd_dm_name in ("c3t2d0","c3t3d0","c3t3d1")) && (pl_kstate=ENABLED)' | nawk '{print $2}'`
  csh では、構文は set PLLIST .... となります。ksh では、構文は export PLLIST= .... となります。Bourne シェルでは、変数が設定された後でコマンド export PLLIST が必要になります。

変数を設定した後、トレー上にコンポーネント (サブディスク) を持つボリュームの I/O を停止します。

トレーに対応したすべてのボリュームが切り離されたか (ミラー構成または RAID5 構成)、停止された (シンプルプレックス) ことを確認します。ミラー化プレックスを切り離すには、次のコマンドを発行します。
# vxplex det ${PLLIST}
トレー内の各プレックスを切り離すには、次のコマンドも使用できます。
# vxplex -g diskgroup -v volume det plex
シンプルプレックスの I/O を停止するには、ファイルシステムのマウントを解除するか、あるいはデータベースアクセスを停止します。

注 -
ミラーのもう一方がまだ使用可能なため、ミラー化ボリュームはまだアクティブなままです。

ディスクグループからディスクを削除します。
# vxdg -g diskgroup rmdisk diskname

トレー内のディスクを停止します。
# luxadm stop -t tray controller

障害のあるディスクを交換します。

ドライブを起動します。
# luxadm start -t tray controller

新しいディスクを初期化します。
# vxdisksetup -i devicename

現在のディスク構成をもう一度走査します。

クラスタ内のすべてのノードで、次のコマンドを入力してください。
# vxdctl enable # vxdisk -a online

ディスクグループに新しいディスクを追加します。

device-media-name には、手順 2で記録したボリュームメディア名を指定します。
# vxdg -g diskgroup -k adddisk device-media-name=devicename

ボリュームの同期をとり直します。
# vxrecover -g diskgroup -b -o

SPARCstorage Array の NVRAM の管理

NVRAM は、SPARCstorage Array の高速書き込み機能をサポートします。NVRAM を使用しない場合は、プログラムからの同時書き込み要求をディスクにコミットし、プログラムが肯定応答を受信した後でなければ、別の要求を出すことができません。NVRAM は、書き込み要求を非揮発性のメモリーに書き込み、定期的にそのデータをディスクにフラッシュします。データがいったん NVRAM に書き込まれると、データがディスクに書き込まれたかのように肯定応答がプログラムに返されます。このため、SPARCstorage Array を使用する書き込みの多いアプリケーションのパフォーマンスが高まります。

この節に示した各作業は、コマンド行インタフェースを使用します。しかし、Solstice DiskSuite 構成では、metatool グラフィカルユーザーインタフェースを使用して、ディスク、トレー、コントローラ用の NVRAM を管理することもできます。Solstice DiskSuite の詳細は、Solstice DiskSuite のマニュアルを参照してください。

注意 -

この機能は注意して使用してください。NVRAM は、SPARCstorage Array を管理する強力な方法を提供します。これらの作業を実行する前に、データをバックアップしてください。

NVRAM の有効化と無効化

高速書き込みは、次のレベルで構成できます。

コントローラレベル - SPARCstorage Array 内のすべてのドライブに影響する
ドライブレベル - 個々のドライブに高速書き込みを設定する
トレーレベル - Solstice DiskSuite GUI を介する

高速書き込みを有効にすると、設定は電源をオフにするまで SPARCstorage Array の構成の一部として保存されます。

NVRAM のバッテリーが弱いか欠如している場合、あるいは故障している場合は、そのコントローラの高速書き込みは無効になります。

高速書き込みを有効にする前に、コントローラまたはディスクのすべての I/O を停止する必要があります。具体的には、ディスクセットの所有権の保守が行われる間に暗黙の I/O ストリームが存在するため、ディスクセットの所有権が解放済みであることを確認します。次に、すべての I/O を停止する方法を示します。

NVRAM を有効または無効にするには、luxadm(1M) コマンドを使用します。このコマンドの詳細は、luxadm(1M) のマニュアルページを参照してください。

注 -

CVM の場合は、NVRAM を無効にする必要があります。

NVRAM を有効または無効にするには

次に、NVRAM を有効または無効にする手順の概略を示します。

すべてのデータの現在のバックアップが存在することを確認する
root 特権があることを確認する
NVRAM を有効または無効にするコントローラまたはディスクを確認する
デバイスのすべての I/O を停止する
NVRAM を有効または無効にする
デバイスを稼動状態に戻し、データの同期を取り直す

次に、NVRAM を有効または無効にする詳しい手順を示します。

NVRAM を有効または無効にするコントローラ、トレー、個々のディスクを確認します。

luxadm(1M) コマンドを使用して、特定のコントローラ、トレー、個々のディスクの情報を表示できます。たとえば、次のコマンドは、コントローラ c2 上のすべてのディスク情報を表示します。

phys-hahost1# luxadm display c2
                     SPARCstorage Array Configuration
 
 Controller path:
 /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@a0000000,779a16:ctlr
                           DEVICE STATUS
       TRAY 1                 TRAY 2                 TRAY 3
 slot
 1     Drive: 0,0             Drive: 2,0             Drive: 4,0
 2     Drive: 0,1             Drive: 2,1             Drive: 4,1
 3     NO SELECT              NO SELECT              NO SELECT
 4     NO SELECT              NO SELECT              NO SELECT
 5     NO SELECT              NO SELECT              NO SELECT
 6     Drive: 1,0             Drive: 3,0             Drive: 5,0
 7     Drive: 1,1             NO SELECT              NO SELECT
 8     NO SELECT              NO SELECT              NO SELECT
 9     NO SELECT              NO SELECT              NO SELECT
 10    NO SELECT              NO SELECT              NO SELECT
                          CONTROLLER STATUS
 ...

影響を受けるデバイスの I/O をすべて停止します。

Solstice DiskSuite の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。

コントローラまたは個々のディスクの高速書き込み権を有効または無効にします。

luxadm(1M) コマンド以下の 3 つのオプションのうちの 1 つを指定して実行してください。
- -e は、すべての書き込みに対して高速書き込みを有効にします
- -c は、同期書き込みにだけ高速書き込みを有効にします
- -d は、高速書き込みを無効にします
次の例は、電源をオフにするまで NVRAM 構成を保存し、すべての書き込みに対して高速書き込みを有効にします。これらのオプションの詳細は、luxadm(1M) のマニュアルページを参照してください。
phys-hahost# luxadm fast_write -s -e pathname
高速書き込みが有効になったことを示す確認メッセージが表示されます。

コンポーネントを Sun Cluster の通常の制御下に戻すために必要な手順を実行します。

Solstice DiskSuite の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (Solstice DiskSuite)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (SSVM または CVM)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。

NVRAM のフラッシュとパージ

luxadm sync_cache コマンドは、NVRAM からの未処理の書き込みをディスクドライブにフラッシュします。データのフラッシュ中にエラーが報告された場合は、luxadm purge コマンドを使用して、データをパージする必要があります。データをパージすると、NVRAM 内の未処理の書き込みがすべて「放棄」されます。

注意 -

高速書き込みデータのパージは、データ消失を引き起こすことがあります。そのため、この処理はドライブに障害が発生した場合にだけ慎重に行なってください。

NVRAM バッテリーが弱いか欠如している場合、あるいは故障している場合は、NVRAM は動作せず、データは消失します。

NVRAM のフラッシュとパージを行うには

次に、選択したコントローラ (とすべてのディスク) のすべての未処理の書き込み、または NVRAM からディスクへの個々の書き込みをフラッシュまたはパージする手順の概略を示します。

すべてのデータの現在のバックアップが存在することを確認する
root 特権があることを確認する
書き込みをフラッシュまたはパージするコントローラまたはディスクを確認する
すべての未処理の書き込みをフラッシュまたはパージする
デバイスの I/O をすべて停止する
デバイスを Sun Cluster のサービスに戻す

次に、NVRAM データをフラッシュまたはパージする詳しい手順を示します。

フラッシュまたはパージするコントローラまたは個々のディスクを確認します。

luxadm(1M) コマンドを使用して、特定のコントローラ、トレー、個々のディスクの情報を表示できます。たとえば、次のコマンドは、コントローラ c2 上のすべてのディスクの情報を表示します。

phys-hahost1# luxadm display c2
                     SPARCstorage Array Configuration
 
 Controller path:
 /devices/iommu@f,e0000000/sbus@f,e0001000/SUNW,soc@0,0/SUNW,pln@a0000000,779a16:ctlr
                           DEVICE STATUS
       TRAY 1                 TRAY 2                 TRAY 3
 slot
 1     Drive: 0,0             Drive: 2,0             Drive: 4,0
 2     Drive: 0,1             Drive: 2,1             Drive: 4,1
 3     NO SELECT              NO SELECT              NO SELECT
 4     NO SELECT              NO SELECT              NO SELECT
 5     NO SELECT              NO SELECT              NO SELECT
 6     Drive: 1,0             Drive: 3,0             Drive: 5,0
 7     Drive: 1,1             NO SELECT              NO SELECT
 8     NO SELECT              NO SELECT              NO SELECT
 9     NO SELECT              NO SELECT              NO SELECT
 10    NO SELECT              NO SELECT              NO SELECT
                          CONTROLLER STATUS
 Vendor:        SUN    
 Product ID:    SSA110         
 Product Rev:   1.0
 Firmware Rev:  3.9
 Serial Num:    000000779A16
 Accumulate Performance Statistics: Enabled
 phys-hahost1#

影響を受けるデバイスの I/O をすべて停止します。

Solstice DiskSuite の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (Solstice DiskSuite)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを取り外すには (SSVM、CVM)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。

コントローラ、トレー、個々のディスクの NVRAM をフラッシュまたはパージします。

SPARCstorage Array のドライブにアクセスできる場合は、NVRAM をフラッシュしてください。NVRAM のパージは、SPARCstorage Array またはディスクにアクセスできなくなった場合にだけ行なってください。
phys-hahost1# luxadm sync_cache pathname または phys-hahost1# luxadm purge pathname
NVRAM がフラッシュまたはパージされたことを示す確認メッセージが表示されます

コンポーネントを Sun Cluster の通常の制御下に戻すために必要な手順を実行します。

Solstice DiskSuite の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (Solstice DiskSuite)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (Solstice DiskSuite)」の該当する手順を参照してください。
SSVM または CVM の場合:
- コントローラまたはトレーについては、「SPARCstorage Array トレーを稼動状態に戻すには (SSVM または CVM)」の該当する手順を参照してください。
- ディスクについては、「SPARCstorage Array ディスクを交換するには (SSVM、CVM)」の該当する手順を参照してください。