Sun Enterprise 6x00、5x00、4x00、3x00 システム Dynamic Reconfiguration ユーザーマニュアル

用語

この章の残りの部分では、DR で使用されるコマンドと用語について説明します。

cfgadm コマンド

cfgadm は、このマニュアルで最もよく使う DR 用コマンドです。

cfgadm コマンドには、以下の機能があります。

多くの手順で、ボードのシステム名の指定が必要になります。ボードやカードケージスロットの名前や状態を確認するには、cfgadm の状態表示機能を使用します。表示例については、「ボードの状態の表示」を参照してください。

Sun Enterprise 6x00/5x00/4x00/3x00 システムで使用する cfgadm コマンドのマニュアルページとしては、cfgadm(1M)cfgadm_sysctrl(1M)cfgadm_ac(1M) が用意してあります。 cfgadm(1M) では、cfgadm コマンドの基本機能を説明しています。cfgadm_sysctrl(1M) では、CPU/メモリーボードの新規サポート情報など、システムボードに関する追加情報を提供しています。cfgadm_ac(1M) は、メモリーバンクのサポートに関する追加情報を提供しています。

cfgadm のユーザーインタフェースは、現在のバージョンではコマンド行形式を採用しています。システム監視および管理用ソフトウェアである Sun Enterprise SyMON(TM) はグラフィカルユーザーインタフェースを採用しており、このマニュアルで説明している DR 機能もサポートしています。SyMON の詳細は、『Sun Enterprise SyMON 2.0.1 Software User's Guide』を参照してください。


注 -

必須ではありませんが、DR は AP (代替パス設定、Alternate Pathing) ソフトウェアと組み合わせて使用できます。AP は入出力ボード間で入出力処理を切り替えます。DR と AP のコマンドを組み合わせると、システム操作をまったく、あるいはほとんど中断することなく、入出力ボードを取り外したり、交換、停止したりできます。入出力処理では、AP は冗長ハードウェアが必要になります。つまりAP を使用して、ある装置からボードを取り外したり交換するためには、同じ装置にその代替となる入出力ボードが接続されている必要があります。AP の詳細は、『Sun Enterprise サーバー Alternate Pathing ユーザーマニュアル』を参照してください。


cfgadm における状態の定義

表 1-2 は、cfgadm を使用した時に表示されるボードおよびスロットの状態の一覧です。この表の後で、それぞれの状態の意味およびその対応策を詳しく説明します。

表 1-2 ボード、装置、スロットの状態

状態 

説明 

empty

スロットにボードが存在しません。LED はすべてオフです。 

disconnected

ボードは存在しますが、電気的には切断されている状態です。 

connected

ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。 

configured

ボード上の装置が完全に初期化され、マウントあるいは構成することによって、使用できる状態です。 

unconfigured

unconfigured 状態は、受容体が empty 状態であるなどの、装置の他のあらゆる状態を表します。 

unknown

どの状態にあるのか、特定できない状態です。 

ok

何の問題も検出されていない状態です。 

failing

ok 状態にあったボードで問題が発生しようとしています。 

failed

ボードが POST/OBP に失敗しました。 

unusable

接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在します。 

empty

スロットにボードが存在しません。LED はすべてオフです。

ボードの取り付け方法については、「ボードの取り付け」を参照してください。

disconnected

ボードは存在しますが、電気的に切断されている状態です。この状態では、システムはボードのタイプを識別できます。このとき、ボードの LED は、ボードが低電力モードに設定されいつでも取り外せる状態になっていることを示します。

disconnected 状態では、LED の表示は緑色、黄色、緑色 (オフ、オン、オフ) になります。ボードをこの状態にするには、cfgadm -c disconnect を使用します。

disconnected 状態のボードの取り外しについては、システムのサービスマニュアルを参照してください。

disconnected 状態のボードに電力を供給する方法については、「ボードの取り付け」を参照してください。

connected

ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。

connected 状態では、LED の表示は緑色、黄色、緑色 (オン、オフ、オフ) になります。

ボードをこの状態にするには、cfgadm -c connect を使用します。connected 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。connected 状態のボードの使用については、「ボードの取り付け」を参照してください。

configured

ボード上の装置が完全に初期化され、マウントあるいは構成することによって使用可能にできる状態です。LED の表示は通常の動作時のパターンになります。

configured 状態では、LED の表示は、オン、オフ、点滅、になります。

ボードをこの状態にするには、cfgadm -c configure を使用します。

configured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。

unconfigured

unconfigured 状態とは上記以外のあらゆる装置状態を示し、これにはたとえば受容体の empty 状態なども含まれます。LED の表示パターンは、受容体が connected の状態の時と同じです。

LED は緑色、黄色、緑色 (オン、オフ、オフ) になります。

ボードをこの状態にするには、cfgadm -c unconfigure を使用します。

unconfigured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。

unconfigured 状態のボードの使用については、「ボードの取り付け」を参照してください。

unknown

現在の状態が特定できないことを示します。このような状況が発生するのは、動作中のシステムに新しいボードを取り付けた場合、または再起動する前に使用不可ボードリストにボードが追加された場合のいずれかです。受容体の状態が connected に移行すると、接続点の状態はこの unknown から、ok または failed のいずれかに変わります。

unknown 状態のボードの使用については、「ボードの取り付け」を参照してください。

ok

まったく問題が検出されていない状態です。ボードの接続後のみ発生します。ボードが物理的に取り外されるか、または何か問題が検出されるまで、この状態は継続します。ok 状態になるには、ハードウェアの互換性とファームウェアのバージョンが正しく、電力および予備電流の供給状態と冷却状態が適切であることが必要です。

ok 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。

failing

ok 状態にあったボードに問題が発生した状態を示します。たとえば、ボードの温度が高くなりすぎた場合などがこれに相当します。この状態は問題が解決されるか、あるいは接続点が切り離されるまで続きます。

failing 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。

ボードの温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。

failed

ボードが POST/OBP に失敗しました。failed 状態が発生する可能性があるのは、起動中または接続の失敗後です。この状態は解決不可能であり、ボードを物理的に取り外さない限りこの状態は続きます。接続点の状態が failed になっている場合、受容体の状態は disconnected より先に改善されることはありません。

failed 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。

unusable

接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在する状態です。この状態は解決可能です。この状態が発生する原因は、以下のいずれかです。

  1. スロット内の冷却が不適切。

  2. empty 状態のスロットに電力が供給されている。

  3. disconnected 状態のボードに問題 (電力供給または冷却が不適切であるか、サポートされていないハードウェアが使用されている) が存在する。

  4. 起動中またはボードの取り付け時に、ファームウェアが問題を検出した。

unusable 状態のスロットからのボードの取り外しについては、「ボードの取り外し」を参照してください。

スロット内の温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。

メモリーバンクと CPU 番号の命名規則

この節では、cfgadm の状態表示で使用されているメモリーバンクおよび CPU の番号割り当て規則について説明します。

メモリーバンクの ac 番号

cfgadm の状態表示では、ボードのアドレスコントローラ番号 (ac0ac1ac2 など) 順にメモリーバンクを一覧表示します。ac 番号の順序は物理的なボードスロット番号ではなく、システムに CPU/メモリーボードを取り付けた順序に依存することに注意してください。たとえば、2 枚目の CPU/メモリーボードがスロット 7 にすでに取り付けられていて、新たにスロット 4 に 3 枚目の CPU/メモリーボードを取り付けた場合、物理スロット番号の順序では、3 枚目に取り付けた CPU/メモリーボードは 2 枚目のボードより前になりますが、cfgadm の状態レポートの表示順序では、3 枚目の ボード (ac2) は 2 枚目のボードの後になります。

CPU 番号

CPU は、ボード番号に基づく CPU 番号を用いて識別されます。第 1 CPU 番号の値はボード番号の値の 2 倍 (2 × n) です。第 2 CPU 番号の値はボード番号の値を 2 倍して 1 を加えた値 (2 × n + 1) になります。

たとえば、ボード 3 の CPU 番号は 6 と 7 になります。ボード 3 の CPU 情報を調べる場合は、psrinfo コマンドで CPU 番号に 6 と 7 を指定します。


# psrinfo 6 7
6         on-line   since 01/10/99 18:00:56
7         on-line   since 01/10/99 18:01:01

接続点

接続点 - ボードおよびそのカードケージスロットを集合的に表す用語です。

DR は、スロット、ボード、接続点の状態を表示できます。DR の定義では、ボードには、そのボードが接続されている装置も含まれますから、DR では、「占有装置」という用語で、ボードとその接続装置の両方を表します。


ヒント -

sysctrl0 の l は英小文字のエル、0 は数字のゼロです。


切り離し可能性

ある装置が切り離し可能であるためには、以下の条件を満たしている必要があります。

ボードには、切り離せないものもあります。たとえば、システムに CPU ボードが 1 枚しか存在しない場合は、その CPU ボードを切り離すことはできません。また、起動ドライブを制御している入出力ボードも切り離せません (システムに AP がインストールされていない場合は、起動ドライブの制御を代替の入出力ボードに切り替えて対応できます)。

現行のバージョンのソフトウェアでは、最小番号の CPU/メモリーボードは切り離せません。cfgadm -v を使用して詳細な状態を表示すると、このようなボードの状態は non-detachable と認識されているのが分かります。たとえば、コード例 1-2 では、スロット 0 と 1 のボードが non-detachable となっています。

入出力ボードへの代替パスがない場合は、以下の対処方法があります。

状態と条件

状態は、受容体 (スロット) または占有装置 (ボード) の操作状態です。

条件は、接続点 (受容体と占有装置両方) の操作状態です。

cfgadm プログラムは、10 通りの状態および条件を表示できます。表 1-2 を参照してください。


注 -

このマニュアルで説明している、受容体に対する作業を行うには、受容体の 3 つある状態が、emptydisconnectedconnected の順に変化するか、あるいはその逆の connecteddisconnectedempty の順に変化する必要があります。


接続と構成

ボードに関する主な操作は、次の 4 つがあります。

接続 - スロットがボードに電力を供給し、ボードの温度の監視を開始します。入出力ボードの場合、接続操作は構成操作の一部です (下記を参照)。接続は、最高で約 1 分ほどの遅延を伴います。実際の遅延時間は、ボードの種類とシステム内のボード数によって異なります。

構成 - オペレーティング環境がボードに機能的な役割を割り当て、ボードおよびそのボードに接続されている装置用のデバイスドライバを読み込みます。

構成解除 - システムがオペレーティング環境からボードを論理的に切り離し、関係するデバイスドライバをオフラインにします。環境の監視は続けられますが、システムがボード上の装置を使用することはできなくなります。

切り離し - システムがボードの監視とスロットへの電力の供給を停止します。

システムボードが使用中の場合は、電源を切って取り外す前に、使用を終了して構成解除してください。新しいまたはアップグレードしたシステムボードを取り付けて、電源を入れたら、接続点に接続し、オペレーティング環境が使用できるように構成します。

cfgadm は、1 つのコマンドで接続と構成 (または構成解除と切り離し) を行うことができますが、必要に応じて、それぞれの操作 (接続、構成、構成解除、切り離し) を別々に行うこともできます。

ホットプラグハードウェア

ホットプラグボードあるいはモジュールには、データピンが接触する前に電力の供給を受けることができる特殊なコネクタがあります。システムの動作中に、ホットプラグコネクタのないボードや装置を取り付けたり取り外したりすることはできません。

Sun Enterprise x000 および x500 システムで使用されている入出力ボードと CPU/メモリーボードはホットプラグ対応の装置です。クロックボードや周辺装置用 AC 電源 (PPS) などはホットプラグモジュールではありません。システムの動作中に、これらの装置を取り外すことはできません。

休止

ページング不可能な Open Boot PROM (OBP) またはカーネルメモリーを搭載したシステムボードに対する DR 構成解除または切り離し操作中、オペレーティング環境は短時間の間一時停止します。この状態は、オペレーティング環境の休止と呼ばれ、これらの DR 操作の重大な局面では、バックプレーンに対するすべてのオペレーティング環境および装置の動作が数秒間停止する必要があります。

システムを休止して、ドライバが DR に対応しているかどうかを調べる方法については、「ドライバが一時停止に対して安全かどうかの確認」を参照してください。

休止できるようになるためには、オペレーティング環境は、すべてのプロセス、CPU、装置の動作を一時停止する必要があります。休止できなかった場合、オペレーティング環境は、以下のような理由を表示します。

一般的に、処理の中断の失敗を引き起こす条件は一時的なものです。中断の失敗の理由を調べてください。処理の中断が失敗した原因が過渡的な条件の場合は、操作をやり直すことができます。


注 -

システムの一時停止中は、画面、マウス、キーボードを操作することはできません。ただし、システムが動作を再開すると、再び制御できるようになります。


一時停止に対して安全な装置と一時停止に対して危険な装置

一時停止に対して安全な装置とは、オペレーティング環境が休止しているときにメモリーアクセスや割り込みを行わない装置です。ドライバがオペレーティング環境の休止に対応している場合、そのドライバは一時停止に対して安全です (保存停止・復元再開)。このことはまた、一時停止要求が行われたとき、そのドライバが管理する装置が開いていても、要求が正常に完了するまで、装置によるメモリーへのアクセスが行われないことを保証します。

一時停止に対して安全なドライバは、以下の機能を提供します。

一時停止に対して危険な装置とは、オペレーティング環境の休止中にメモリーアクセスやシステム割り込みを許可する装置です。

一時停止に対して危険な装置が開いている場合、オペレーティング環境は休止要求を拒否します。そのような装置を手動で一時停止するには、その装置を使用している処理を終了するか、他のユーザーにその装置にアクセスしないよう依頼するか、ケーブルを取り外すことによって、装置を閉じる必要があります。たとえば、非同期の入力を許容する装置を開いている場合は、オペレーティング環境を休止する前にその装置のケーブルを取り外しておき、オペレーティング環境が再開したら、接続し直します。この処置によって、装置に対するトラフィックがなくなり、装置がバックプレーンにアクセスする理由がなくなります。

テープ装置

テープ装置は、逐次的に処理を行うため、安全に動作を一時停止し、再開することはできません。つまり、すべてのテープドライバは一時停止に対して危険です。オペレーティング環境を休止させる操作を行う際は、すべてのテープ装置が閉じているか、使われていないことを確認してください。