この章の残りの部分では、DR で使用されるコマンドと用語について説明します。
cfgadm は、このマニュアルで最もよく使う DR 用コマンドです。
ボードの状態を表示する。
故障デバイスを使用不可に設定 (論理的構成から削除) して、オペレーティング環境のクラッシュを未然に防ぐ。
新規ボードの追加、あるいはボードの交換の際に発生するシステムアプリケーションの中断を最小限に抑える。
ボードのテストを開始する。
システムのボード構成を変更する。
ボードやボードに関係する接続装置の、その他のハードウェア固有機能を起動する。
多くの手順で、ボードのシステム名の指定が必要になります。ボードやカードケージスロットの名前や状態を確認するには、cfgadm の状態表示機能を使用します。表示例については、「ボードの状態の表示」を参照してください。
Sun Enterprise 6x00/5x00/4x00/3x00 システムで使用する cfgadm コマンドのマニュアルページとしては、cfgadm(1M)、cfgadm_sysctrl(1M)、cfgadm_ac(1M) が用意してあります。 cfgadm(1M) では、cfgadm コマンドの基本機能を説明しています。cfgadm_sysctrl(1M) では、CPU/メモリーボードの新規サポート情報など、システムボードに関する追加情報を提供しています。cfgadm_ac(1M) は、メモリーバンクのサポートに関する追加情報を提供しています。
cfgadm のユーザーインタフェースは、現在のバージョンではコマンド行形式を採用しています。システム監視および管理用ソフトウェアである Sun Enterprise SyMON(TM) はグラフィカルユーザーインタフェースを採用しており、このマニュアルで説明している DR 機能もサポートしています。SyMON の詳細は、『Sun Enterprise SyMON 2.0.1 Software User's Guide』を参照してください。
必須ではありませんが、DR は AP (代替パス設定、Alternate Pathing) ソフトウェアと組み合わせて使用できます。AP は入出力ボード間で入出力処理を切り替えます。DR と AP のコマンドを組み合わせると、システム操作をまったく、あるいはほとんど中断することなく、入出力ボードを取り外したり、交換、停止したりできます。入出力処理では、AP は冗長ハードウェアが必要になります。つまりAP を使用して、ある装置からボードを取り外したり交換するためには、同じ装置にその代替となる入出力ボードが接続されている必要があります。AP の詳細は、『Sun Enterprise サーバー Alternate Pathing ユーザーマニュアル』を参照してください。
表 1-2 は、cfgadm を使用した時に表示されるボードおよびスロットの状態の一覧です。この表の後で、それぞれの状態の意味およびその対応策を詳しく説明します。
表 1-2 ボード、装置、スロットの状態
状態 |
説明 |
---|---|
empty |
スロットにボードが存在しません。LED はすべてオフです。 |
disconnected |
ボードは存在しますが、電気的には切断されている状態です。 |
connected |
ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。 |
configured |
ボード上の装置が完全に初期化され、マウントあるいは構成することによって、使用できる状態です。 |
unconfigured |
unconfigured 状態は、受容体が empty 状態であるなどの、装置の他のあらゆる状態を表します。 |
unknown |
どの状態にあるのか、特定できない状態です。 |
ok |
何の問題も検出されていない状態です。 |
failing |
ok 状態にあったボードで問題が発生しようとしています。 |
failed |
ボードが POST/OBP に失敗しました。 |
unusable |
接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在します。 |
スロットにボードが存在しません。LED はすべてオフです。
ボードの取り付け方法については、「ボードの取り付け」を参照してください。
ボードは存在しますが、電気的に切断されている状態です。この状態では、システムはボードのタイプを識別できます。このとき、ボードの LED は、ボードが低電力モードに設定されいつでも取り外せる状態になっていることを示します。
disconnected 状態では、LED の表示は緑色、黄色、緑色 (オフ、オン、オフ) になります。ボードをこの状態にするには、cfgadm -c disconnect を使用します。
disconnected 状態のボードの取り外しについては、システムのサービスマニュアルを参照してください。
disconnected 状態のボードに電力を供給する方法については、「ボードの取り付け」を参照してください。
ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。
connected 状態では、LED の表示は緑色、黄色、緑色 (オン、オフ、オフ) になります。
ボードをこの状態にするには、cfgadm -c connect を使用します。connected 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。connected 状態のボードの使用については、「ボードの取り付け」を参照してください。
ボード上の装置が完全に初期化され、マウントあるいは構成することによって使用可能にできる状態です。LED の表示は通常の動作時のパターンになります。
configured 状態では、LED の表示は、オン、オフ、点滅、になります。
ボードをこの状態にするには、cfgadm -c configure を使用します。
configured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
unconfigured 状態とは上記以外のあらゆる装置状態を示し、これにはたとえば受容体の empty 状態なども含まれます。LED の表示パターンは、受容体が connected の状態の時と同じです。
LED は緑色、黄色、緑色 (オン、オフ、オフ) になります。
ボードをこの状態にするには、cfgadm -c unconfigure を使用します。
unconfigured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
unconfigured 状態のボードの使用については、「ボードの取り付け」を参照してください。
現在の状態が特定できないことを示します。このような状況が発生するのは、動作中のシステムに新しいボードを取り付けた場合、または再起動する前に使用不可ボードリストにボードが追加された場合のいずれかです。受容体の状態が connected に移行すると、接続点の状態はこの unknown から、ok または failed のいずれかに変わります。
unknown 状態のボードの使用については、「ボードの取り付け」を参照してください。
まったく問題が検出されていない状態です。ボードの接続後のみ発生します。ボードが物理的に取り外されるか、または何か問題が検出されるまで、この状態は継続します。ok 状態になるには、ハードウェアの互換性とファームウェアのバージョンが正しく、電力および予備電流の供給状態と冷却状態が適切であることが必要です。
ok 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
ok 状態にあったボードに問題が発生した状態を示します。たとえば、ボードの温度が高くなりすぎた場合などがこれに相当します。この状態は問題が解決されるか、あるいは接続点が切り離されるまで続きます。
failing 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
ボードの温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。
ボードが POST/OBP に失敗しました。failed 状態が発生する可能性があるのは、起動中または接続の失敗後です。この状態は解決不可能であり、ボードを物理的に取り外さない限りこの状態は続きます。接続点の状態が failed になっている場合、受容体の状態は disconnected より先に改善されることはありません。
failed 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在する状態です。この状態は解決可能です。この状態が発生する原因は、以下のいずれかです。
スロット内の冷却が不適切。
empty 状態のスロットに電力が供給されている。
disconnected 状態のボードに問題 (電力供給または冷却が不適切であるか、サポートされていないハードウェアが使用されている) が存在する。
起動中またはボードの取り付け時に、ファームウェアが問題を検出した。
unusable 状態のスロットからのボードの取り外しについては、「ボードの取り外し」を参照してください。
スロット内の温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。
この節では、cfgadm の状態表示で使用されているメモリーバンクおよび CPU の番号割り当て規則について説明します。
cfgadm の状態表示では、ボードのアドレスコントローラ番号 (ac0、ac1、ac2 など) 順にメモリーバンクを一覧表示します。ac 番号の順序は物理的なボードスロット番号ではなく、システムに CPU/メモリーボードを取り付けた順序に依存することに注意してください。たとえば、2 枚目の CPU/メモリーボードがスロット 7 にすでに取り付けられていて、新たにスロット 4 に 3 枚目の CPU/メモリーボードを取り付けた場合、物理スロット番号の順序では、3 枚目に取り付けた CPU/メモリーボードは 2 枚目のボードより前になりますが、cfgadm の状態レポートの表示順序では、3 枚目の ボード (ac2) は 2 枚目のボードの後になります。
CPU は、ボード番号に基づく CPU 番号を用いて識別されます。第 1 CPU 番号の値はボード番号の値の 2 倍 (2 × n) です。第 2 CPU 番号の値はボード番号の値を 2 倍して 1 を加えた値 (2 × n + 1) になります。
たとえば、ボード 3 の CPU 番号は 6 と 7 になります。ボード 3 の CPU 情報を調べる場合は、psrinfo コマンドで CPU 番号に 6 と 7 を指定します。
# psrinfo 6 7 6 on-line since 01/10/99 18:00:56 7 on-line since 01/10/99 18:01:01
接続点 - ボードおよびそのカードケージスロットを集合的に表す用語です。
DR は、スロット、ボード、接続点の状態を表示できます。DR の定義では、ボードには、そのボードが接続されている装置も含まれますから、DR では、「占有装置」という用語で、ボードとその接続装置の両方を表します。
スロット (受容体) は、ホストマシンから占有装置を電気的に切り離すことができます。すなわち、DR ソフトウェアは、1 つのスロットを低電力モードにすることができます。
受容体には、スロット番号に従って名前を付けることも、あるいは SCSI チェーンのように匿名のままにすることもできます。使用できるすべての論理的接続点の一覧を表示するには、cfgadm コマンドで -l オプションを使用します。
占有装置としての入出力ボードには、インタフェースケーブルで接続された外部記憶装置が含まれます。
物理接続点 - カードケージスロットのソフトウェアドライバと位置を表します。以下に、物理接続点の例を示します。
/devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:sysctrl,slot0
sysctrl0 の l は英小文字のエル、0 は数字のゼロです。
ある装置が切り離し可能であるためには、以下の条件を満たしている必要があります。
デバイスドライバが DDI_DETACH に対応している
重要な資源が冗長であるか、または代替パスからアクセス可能である。CPU およびメモリーバンクは、重要な冗長資源にすることができます。また、代替パス (代替入出力ボード) を使用してアクセスできる重要な資源としては、たとえばディスクドライブがあります。
ボードには、切り離せないものもあります。たとえば、システムに CPU ボードが 1 枚しか存在しない場合は、その CPU ボードを切り離すことはできません。また、起動ドライブを制御している入出力ボードも切り離せません (システムに AP がインストールされていない場合は、起動ドライブの制御を代替の入出力ボードに切り替えて対応できます)。
現行のバージョンのソフトウェアでは、最小番号の CPU/メモリーボードは切り離せません。cfgadm -v を使用して詳細な状態を表示すると、このようなボードの状態は non-detachable と認識されているのが分かります。たとえば、コード例 1-2 では、スロット 0 と 1 のボードが non-detachable となっています。
入出力ボードへの代替パスがない場合は、以下の対処方法があります。
別のボードにディスクチェーンを追加する。この追加によって二次入出力ボードを切り離すことができます。
その装置に対して 2 枚目の入出力ボードを経由して 2 つ目のパスを追加する。AP ソフトウェアを使用して代替ボード経由のアクセスに切り換えることにより、2 つ目のディスクチェーンへのアクセス手段を失うことなく、入出力ボードが切り離し可能にできます。
状態は、受容体 (スロット) または占有装置 (ボード) の操作状態です。
条件は、接続点 (受容体と占有装置両方) の操作状態です。
cfgadm プログラムは、10 通りの状態および条件を表示できます。表 1-2 を参照してください。
このマニュアルで説明している、受容体に対する作業を行うには、受容体の 3 つある状態が、empty、disconnected、connected の順に変化するか、あるいはその逆の connected、disconnected、empty の順に変化する必要があります。
ボードに関する主な操作は、次の 4 つがあります。
接続 - スロットがボードに電力を供給し、ボードの温度の監視を開始します。入出力ボードの場合、接続操作は構成操作の一部です (下記を参照)。接続は、最高で約 1 分ほどの遅延を伴います。実際の遅延時間は、ボードの種類とシステム内のボード数によって異なります。
構成 - オペレーティング環境がボードに機能的な役割を割り当て、ボードおよびそのボードに接続されている装置用のデバイスドライバを読み込みます。
構成解除 - システムがオペレーティング環境からボードを論理的に切り離し、関係するデバイスドライバをオフラインにします。環境の監視は続けられますが、システムがボード上の装置を使用することはできなくなります。
切り離し - システムがボードの監視とスロットへの電力の供給を停止します。
システムボードが使用中の場合は、電源を切って取り外す前に、使用を終了して構成解除してください。新しいまたはアップグレードしたシステムボードを取り付けて、電源を入れたら、接続点に接続し、オペレーティング環境が使用できるように構成します。
cfgadm は、1 つのコマンドで接続と構成 (または構成解除と切り離し) を行うことができますが、必要に応じて、それぞれの操作 (接続、構成、構成解除、切り離し) を別々に行うこともできます。
ホットプラグボードあるいはモジュールには、データピンが接触する前に電力の供給を受けることができる特殊なコネクタがあります。システムの動作中に、ホットプラグコネクタのないボードや装置を取り付けたり取り外したりすることはできません。
Sun Enterprise x000 および x500 システムで使用されている入出力ボードと CPU/メモリーボードはホットプラグ対応の装置です。クロックボードや周辺装置用 AC 電源 (PPS) などはホットプラグモジュールではありません。システムの動作中に、これらの装置を取り外すことはできません。
ページング不可能な Open Boot PROM (OBP) またはカーネルメモリーを搭載したシステムボードに対する DR 構成解除または切り離し操作中、オペレーティング環境は短時間の間一時停止します。この状態は、オペレーティング環境の休止と呼ばれ、これらの DR 操作の重大な局面では、バックプレーンに対するすべてのオペレーティング環境および装置の動作が数秒間停止する必要があります。
システムを休止して、ドライバが DR に対応しているかどうかを調べる方法については、「ドライバが一時停止に対して安全かどうかの確認」を参照してください。
休止できるようになるためには、オペレーティング環境は、すべてのプロセス、CPU、装置の動作を一時停止する必要があります。休止できなかった場合、オペレーティング環境は、以下のような理由を表示します。
ユーザースレッドが一時停止しなかった。
リアルタイム処理が動作している。
オペレーティング環境が一時停止させることができない装置が存在する。
一般的に、処理の中断の失敗を引き起こす条件は一時的なものです。中断の失敗の理由を調べてください。処理の中断が失敗した原因が過渡的な条件の場合は、操作をやり直すことができます。
システムの一時停止中は、画面、マウス、キーボードを操作することはできません。ただし、システムが動作を再開すると、再び制御できるようになります。
一時停止に対して安全な装置とは、オペレーティング環境が休止しているときにメモリーアクセスや割り込みを行わない装置です。ドライバがオペレーティング環境の休止に対応している場合、そのドライバは一時停止に対して安全です (保存停止・復元再開)。このことはまた、一時停止要求が行われたとき、そのドライバが管理する装置が開いていても、要求が正常に完了するまで、装置によるメモリーへのアクセスが行われないことを保証します。
一時停止に対して安全なドライバは、以下の機能を提供します。
ユーザースレッドの停止。
各デバイスドライバにおける DDI_SUSPEND 呼び出しの実行。
クロックの停止。
CPU の停止。
一時停止に対して危険な装置とは、オペレーティング環境の休止中にメモリーアクセスやシステム割り込みを許可する装置です。
一時停止に対して危険な装置が開いている場合、オペレーティング環境は休止要求を拒否します。そのような装置を手動で一時停止するには、その装置を使用している処理を終了するか、他のユーザーにその装置にアクセスしないよう依頼するか、ケーブルを取り外すことによって、装置を閉じる必要があります。たとえば、非同期の入力を許容する装置を開いている場合は、オペレーティング環境を休止する前にその装置のケーブルを取り外しておき、オペレーティング環境が再開したら、接続し直します。この処置によって、装置に対するトラフィックがなくなり、装置がバックプレーンにアクセスする理由がなくなります。
テープ装置は、逐次的に処理を行うため、安全に動作を一時停止し、再開することはできません。つまり、すべてのテープドライバは一時停止に対して危険です。オペレーティング環境を休止させる操作を行う際は、すべてのテープ装置が閉じているか、使われていないことを確認してください。