この章では、動的再構成 (DR) の仕組みと DR が使用されている用語について説明します。
再構成するボードまたはカードケージスロットの名前と状態を確認します。この確認には、オンラインの DR 状態報告を使用します。「ボードの状態の監視方法」を参照してください。
次の表から、ボードまたは装置の状態を調べ、「参照先」欄に示されている作業または関連マニュアルに進みます。
表 2-1 DR で定義されている状態
状態 |
説明 |
参照先 |
---|---|---|
empty |
スロットにボードがありません。すべての LED が消灯しています。 |
「新しいボードの取り付け」を参照してください。 |
disconnected |
ボードは装着されていますが、電気的に切り離されています。システムはボードの種類を確認できます。LED はボードが低電力になっていて、いつでも取り外せることを示します。 LED: 緑、黄、緑 (消灯、点灯、消灯) この状態にするには、cfgadm -c disconnect コマンドを実行します。 |
disconnected 状態のボードを取り外すには、システムの保守マニュアルを参照してください。disconnected 状態のボードに電力を供給するには、「新しいボードの取り付け」を参照してください。 |
connected |
ボードが電気的に接続されていて、電力が供給されています。システムはボードの温度を監視し、高すぎる場合は冷却します。 LED: 緑、黄、緑 (点灯、消灯、消灯) この状態にするには、cfgadm -c connect コマンドを実行します。 |
connected 状態のボードを取り外すには、「ボードの取り外し」を参照してください。connected 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。 |
configured |
ボード上の装置が完全に初期化されていて、マウントまたは構成して使用することができます。 LED は正常な動作状態を示します。 LED: 点灯、消灯、点滅 この状態にするには、cfgadm -c configure コマンドを実行します。 |
configured 状態のボードを取り外すには、「ボードの取り外し」を参照してください。 |
unconfigured |
受容体の empty 状態など、他のすべての装置状態を含みます。LED の状態は connected 状態と同じです。 LED: 緑、黄、緑 (点灯、消灯、点滅) この状態にするには、cfgadm -c configure コマンドを実行します |
unconfigured 状態のボードを取り外すには、「ボードの取り外し」を参照してください。unconfigured 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。 |
unknown |
現在の条件を特定できません。この状態は、使用システムの動作中に新しいボードを取り付けたとき、あるいは再起動する前に無効なボードの一覧にボードを登録したときに発生します。受容体が connected 状態になると、その接続点の状態が unknown から ok または failed に変わります。 |
unknown 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。 |
ok |
障害は検出されませんでした。この条件は、ボードの接続後にだけ発生し、ボードが物理的に取り外されるか、なんらかの障害が検出されるまで継続します。ok になるには、正常なハードウェア間の互換性、ファームウェアの正しいバージョン、適切な電力、冷却、予備電圧が必要です。 |
ok 状態のボードを取り外すには、「ボードの取り外し」を参照してください。 |
failing |
この条件は、ok 状態のボードで問題が発生した場合にのみ発生し、たとえば、ボードが過熱し始めていることを示します。この状態は、問題が解決されるか、接続点が切り離されるまで継続します。 |
failing 状態のボードを取り外すには、「ボードの取り外し」を参照してください。 過熱などの問題を解決するには、使用システムの保守マニュアルを参照してください。 |
failed |
ボードが POST/OBP に失敗しました。この条件は、起動中または接続に失敗したときに発生します。回復不可能と見なされ、ボードが物理的に取り外されるまで継続します。接続点が failed 状態になった場合、受容体が disconnected より先の状態になることはありません。 |
failed 状態のボードを取り外すには、「ボードの取り外し」を参照してください。 |
unusable |
接続点に互換性のないハードウェアが接続されているか、電力、冷却、予備電流不足によって接続点が empty になっているかのいずれかです。unusable 条件は必ず回復できます。unusable 状態の原因は、(1) スロットの冷却が適切でない、(2) 空のスロットに電力供給が検出された、(3) 切り離されているボードの冷却、電力供給が不適切であるか、サポートされていないハードウェアがある、(4) 起動中またはボードの装着時にファームウェアが問題を検出した、のいずれかです。 |
unusable 状態のスロットからボードを取り外すには、「ボードの取り外し」を参照してください。スロットの過熱などの問題を解決するには、使用システムの保守マニュアルを参照してください。 |
cfgadm プログラムは、DR ボードおよびスロットの状態を表示することができます。
オプションなしで使用された場合、cfgadm コマンドは、システム内の認識されているすべての DR 接続点の簡単な一覧を表示します。cfgadm コマンドの出力例を以下に示します。
# cfgadm Ap_Id Receptacle Occupant Condition ac0:bank0 connected configured ok ac0:bank1 connected configured ok ac1:bank1 connected configured ok sysctrl0:slot0 connected configured ok sysctrl0:slot1 empty unconfigured unknown sysctrl0:slot2 connected configured ok sysctrl0:slot3 connected configured ok sysctrl0:slot4 connected configured ok sysctrl0:slot5 disconnected unconfigured unknown sysctrl0:slot6 connected configured ok sysctrl0:slot7 empty unconfigured unknown #
-v オプション付きで使用された場合、cfgadm コマンドは詳細な一覧を表示します。
# cfgadm -vAp_Id Receptacle Occupant Condition Information When Type Busy Phys_ID sysctrl0:slot0 connected configured ok non-detachable Jul 23 10:24 cpu/mem n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot0 sysctrl0:slot1 empty unconfigured unknown Jul 23 10:24 unknown n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot1 sysctrl0:slot2 connected configured ok Jul 23 10:24 cpu/mem n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot2 sysctrl0:slot3 connected configured ok Jul 23 10:24 dual/-pci n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot3 sysctrl0:slot4 connected configured ok Jul 23 10:24 dual-sbus n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot4 sysctrl0:slot5 disconnected unconfigured unknown Jul 23 10:24 disk n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot5 sysctrl0:slot6 connected configured ok Jul 23 10:24 dual-sbus n /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot6
この出力には、以下のような有用な詳細情報が含まれます。
下記の表は、現在対応しているボードと対応していないボードの一覧です。
表 2-2 対応しているボードと対応していないボード
名前 |
対応 |
ボード情報 |
---|---|---|
CPU/メモリー |
× |
|
CPU/メモリー + |
× |
|
入出力タイプ 1 (SBus) |
○ |
SBus スロット × 3、FC/OM ファイバチャネルスロット × 2 |
入出力タイプ 2 |
○ |
グラフィックススロット × 1、SBus スロット × 2、FC/OM ファイバチャネルスロット × 2 |
入出力タイプ 3 |
× |
PCI スロット × 2、FC/OM ファイバチャネルスロット X 2 |
入出力タイプ 4 |
○ |
SBus スロット × 3、 GBIC (FC/AL) ファイバチャネルスロット × 2 |
入出力タイプ 5 |
○ |
グラフィックススロット × 1、SBus スロット × 2、 GBIC (FC/AL) ファイバチャネルスロット × 2 |
他の種類のボードにも対応する予定です。この一覧の最新版については、以下に示す DR の Web サイトまたは Solaris(TM) 7 のリリース情報を参照してください。
http://sunsolve2.Sun.COM/sunsolve/Enterprise-dr/
必要とされるソフトウェアパッチについては、Solaris 7 のリリース情報または以下に示す DR の Web サイト参照してください。
http://sunsolve2.Sun.COM/sunsolve/Enterprise-dr/
接続点 - ボードおよびそのカードケージスロットを集合的に表す用語
DR は、スロット、ボード、接続点の状態を表示できます。DR の目的からすれば、ボードには、そのボードが接続されている装置も含まれますから、DR では、「占有装置」という用語で、ボードとその接続装置の両方を表します。
スロット (受容体) は、ホストマシンから占有装置を電気的に切り離すことができます。すなわち、DR ソフトウェアは、1 つのスロットを低電力モードにすることができます。
受容体には、スロット番号に従って名前を付けることも、あるいは SCSI チェーンのように匿名のままにすることもできます。使用できるすべての論理的接続点の一覧を表示するには、cfgadm コマンドで -l オプションを使用します。
占有装置としての入出力ボードには、インタフェースケーブルで接続された外部記憶装置が含まれます。
物理接続点 - カードケージスロットのソフトウェアドライバと位置を表します。以下に、物理接続点の例を示します。
/devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:sysctrl,slot0
ボードに起動ドライブなどの重要な資源が接続されている場合、そのボードを切り離すことはできません。同様に、システムに CPU ボードが 1 枚しかない場合、その CPU ボードを切り離すことはできません。
装置が切り離し可能であるには、以下の条件が満たされている必要があります。
デバイスドライバが DDI_DETACH に対応している。
代替パスで重要な資源にアクセスできる。
入出力ボードへの代替パスがない場合は、以下の対処方法があります。
別のボードに 2 つ目のディスクチェーンを追加する。二次入出力ボードは切り離すことができます。二次入出力ボードは切り離すと、二次ディスクチェーンは使用することができなくなります。
その装置に対して 2 枚目の入出力ボードを経由して 2 つ目のパスを追加する。AP ソフトウェアを使用して代替ボード経由のアクセスに切り換えることにより、2 つ目のディスクチェーンへのアクセス手段を失うことなく、入出力ボードが切り離し可能にできます。
状態 - 受容体 (スロット) または占有装置 (ボード) の操作状態
条件 - 接続点 (受容体と占有装置両方) の操作状態
cfgadm プログラムは、状態および条件として 10 通りの状態を表示することができます。表 2-1 を参照してください。
このマニュアルで説明している、受容体に対する作業を行うには、受容体の 3 つある状態が、empty、disconnected、connected の順に変化するか、あるいはその逆の connected、disconnected、empty の順に変化する必要があります。
DR の主要な操作には、次の 4 つがあります。
接続 - スロットがボードに電力を供給し、ボードの温度の監視を開始します。
構成 - オペレーティングシステムがボードに機能的な役割を割り当て、ボードおよびそのボードに接続されている装置用のデバイスドライバを読み込みます。
構成解除 - システムがオペレーティングシステムからボードを論理的に切り離し、関係するデバイスドライバをオフラインにします。環境の監視は続けられますが、システムがボード上の装置を使用することはできなくなります。
切り離し - システムがボードの監視とスロットへの電力の供給を停止します。
システムボードが使用中の場合は、電源を切って取り外す前に、使用を終了して構成解除してください。新しいまたはアップグレードしたシステムボードを取り付けて、電源を入れたら、接続点に接続し、オペレーティングシステムが使用できるように構成します。
cfgadm は、1 つのコマンドで接続と構成 (または構成解除と切り離し) を行うことができますが、必要に応じて、それぞれの操作 (接続、構成、構成解除、切り離し) を別々に行うこともできます。
ホットプラグ - ホットプラグボードあるいはモジュールには、データピンが接触する前に電力の供給を受けることができる特殊なコネクタがあります。システムの動作中に、ホットプラグコネクタのないボードや装置を取り付けたり取り外したりすることはできません。
Sun Enterprise x000 および x500 システムで使用されている入出力ボードと CPU/ メモリーボードはホットプラグ対応の装置です。クロックボードや周辺装置用 AC 電源 (PPS) などはホットプラグモジュールではありません。システムの動作中に、これらの装置を取り外すことはできません。
休止 - ページング不可能な Open Boot PROM (OBP) またはカーネルメモリーを搭載したシステムボードに対するの DR 構成解除または切り離し操作中、オペレーティングシステムは短時間の間一時停止します。この状態は、オペレーティングシステムの休止と呼ばれ、これらの DR 操作の重大な局面では、バックプレーンに対するすべてのオペレーティングシステムおよび装置の動作が数秒間停止する必要があります。
休止できるようになるためには、オペレーティングシステムは、すべての処理、プロセッサ、装置の動作を一時停止する必要があります。休止できなかった場合、オペレーティングシステムは、以下のような理由を表示します。
ユーザースレッドが一時停止しなかった。
リアルタイム処理が動作している。
オペレーティングシステムが一時停止させることができない装置が存在する。
一般的に、処理の中断の失敗を引き起こす条件は一時的なものです。中断の失敗の理由を調べてください。処理の中断が失敗した原因が過渡的な条件の場合は、操作をやり直すことができます。
一時停止に対して安全 - 一時停止に対して安全な装置とは、オペレーティングシステムが休止しているときにメモリーアクセスや割り込みを行わない装置です。ドライバがオペレーティングシステムの休止に対応している場合、そのドライバは一時停止に対して安全です (保存停止・復元再開)。このことはまた、一時停止要求が行われたとき、そのドライバが管理する装置が開いていても、要求が正常に完了するまで、装置によるメモリーへのアクセスが行われないことを保証します。
一時停止に対して危険 - 一時停止に対して危険な装置とは、オペレーティングシステムの休止中にメモリーアクセスやシステム割り込みを許可する装置です。
一時停止に対して安全なドライバは、以下の機能を提供します。
ユーザースレッドの停止
各デバイスドライバにおける DDI_SUSPEND 呼び出しの実行
クロックの停止
CPU の停止
一時停止に対して危険な装置が開いている場合、オペレーティングシステムは休止要求を拒否します。そのような装置を手動で一時停止するには、その装置を使用している処理を終了するか、他のユーザーにその装置にアクセスしないよう依頼するか、ケーブルを取り外すことによって、装置を閉じる必要があります。たとえば、非同期の入力を許容する装置を開いている場合は、オペレーティングシステムを休止する前にその装置のケーブルを取り外しておき、オペレーティングシステムが再開したら、接続しなおします。この処置によって、装置に対するトラフィックがなくなり、装置がバックプレーンにアクセスする理由がなくなります。
quiesce-test オプションは、一時停止が可能なドライバを調べます。
# cfgadm -x quiesce-test コントローラ番号:スロット番号
テープ装置は、逐次的に処理を行うため、安全に動作を一時停止し、再開することはできません。つまり、すべてのテープドライバは一時停止に対して危険です。オペレーティングシステムを休止させる DR 操作を行う際は、すべてのテープ装置が閉じているか、使われていないことを確認してください。
新しいボードの取り付けには、後述する DR の接続操作と構成操作が関係してきます。ボードを予備として使用する場合は、取り付けるときは無効にしておいて、 後で使用するときに有効にする必要があります。
ボードの取り付け手順については、「新しいボードの取り付け」を参照してください。
既存のボードに記憶装置を追加するには、「記憶装置の追加」を参照してください。
カードケージにボードを物理的に装着したら、そのボードを論理的に接続します。
# cfgadm -c connect コントローラ番号:スロット番号
コントローラ番号:スロット番号 は、論理的接続点の識別名 (ボードのシステム名) で、cfgadm の状態表示情報で調べることができます。
ボードを装着する前の状態と条件は、以下のようになります。
受容体の状態 - Empty
占有装置の状態 - Unconfigured
条件 - Unknown
ボードの装着後の状態と条件は、以下のようになります。
受容体の状態 - Disconnected
占有装置の状態 - Unconfigured
条件 - Unknown
接続点が論理的に接続された後の状態と条件は、以下のようになります。
受容体の状態 - Connected
占有装置の状態 - Unconfigured
条件 - OK
これで、システムによってボードが認識されますが、ボード上の装置はまだ使用できません。温度が監視され、条件は電力供給と冷却の影響を受けます。
ボードを論理的に構成して、システム構成にボードを追加するには、次のコマンドを入力します。
# cfgadm -c configure コントローラ番号:スロット番号
接続点が構成されると、状態と条件は以下のようになります。
受容体の状態 - Connected
占有装置の状態 - Configured
条件 - OK
これで、システムによってボード上にある使用可能な装置も認識され、すべての装置は、使用するためにマウントまたは構成することができるようになります。
構成操作がなんらかの理由で失敗した場合、個別装置と接続点の状態は configured になり、ボードが部分的にしか構成されていない特殊な状況になります。この場合、行えるのは「構成解除」操作だけです。未構成部分の構成を行うことはできません。
ボードをスペアボードにする場合は、そのボードを無効なボードの一覧に登録します。無効なボードの一覧に登録しておくことで、システムに電源を入れたとき、あるいはシステムを再起動したとき、そのボードが使用されなくなります。
ボードを無効にするには、EEPROM コマンドを使用します。
# eeprom disabled-board-list=コントローラ番号:スロット番号
# cfgadm -c disconnect -o disable-at-boot コントローラ番号:スロット番号
この後で、同じスロットに別にボードを装着しても、cfgadm の状態表示には、無効なボードとして表示されます。
稼働中のシステムに、構成解除されているボード、すなわち、システムが使用していないボードが含まれていることがあります。構成解除されているボードには、以下が行われている可能性があります。
システム起動後のホットスワップ
EEPROM 設定の disable-board-list による無効化
以前の構成解除
ボードを有効にするには、前に説明されている configure オプションを使用します。
記憶装置の追加については、「記憶装置の追加」を参照してください。
ボードを取り外すには、後述するように、ボードに接続されているすべての装置について、そのための準備をして、ボードの構成解除操作と切り離し操作を行う必要があります。
ボードの取り外し手順については、「ボードの取り外し」を参照してください。
別のボード上に代替資源がない場合は、重要なシステム資源を搭載したボードを切り離すことはできません。たとえば、起動ディスクは重要なシステム資源です。
重要ではないシステム資源を搭載したボードは、その資源に対する代替パスが存在するかどうかに関係なく構成解除することができます。そのためには、システム資源のファイルシステムのすべてをマウント解除し、スワップパーティションを削除する必要があります。 マウント解除する前に、ファイルや装置を開いている処理を終了したり、lockfs(1M) を使用して、ファイルシステムにハードロックをかけたりする必要がある場合もあります。すべての入出力装置ドライバが切り離し可能である必要があります。
システムのスワップ空間は、異なるボード上のコントローラに接続されたディスク上の複数のパーティションとして構成されている必要があります。この種の構成ではスワップパーティションを動的に追加したり削除したりすることができるため、特定のスワップパーティションが重要な資源となることはありません。 詳細は、swap(1M) を参照してください。
メモリーまたははディスクスワップ空間を切り離す場合は、実行中のプログラムが動作を継続するために必要な容量のメモリーまたはディスクスワップ空間が残されている必要があります。
システムが一時停止している間は、画面、マウス、キーボードを使用することはできなくなりますが、一時停止が終了すると、再び制御できるようになります。
構成解除操作を完了するには、ネットワークインタフェースを含む、そのボード上のすべての入出力装置を手動で終了する必要があります。
ボード上にある構成解除の対象部品を確認するには、ifconfig、mount、pf、swap コマンドのいずれかを使用します。prtdiag(1M) コマンドによって情報を得ることもできますが、情報量が少なくなります。
DR は、切り離されようとしているボード上のネットワークインタフェースの使用を自動的に停止しません。インタフェースは、それぞれ手動で使用を停止する必要があります。
DR は、以下の条件に当てはまるインタフェースに対する構成解除操作を許可しません。その場合、構成解除操作は失敗し、DR によってエラーメッセージが返されます。
ネットワークインタフェースがマシンの主ネットワークインタフェースである。すなわち、その IP アドレスが /etc/nodename ファイルに含まれているネットワークインタフェース名に対応している。この場合、マシンの主ネットワークインタフェースを終了すると、ネットワーク情報ネームサービスの動作が妨げられ、その結果として、ftp(1)、rsh(1)、rcp(1)、rlogin(1) などのアプリケーションを使用して遠隔ホストにネットワーク接続することができなくなります。NFS クライアントとサーバーの動作も影響を受けます。
AP メタデバイスにインタフェースが設定されている際に、ネットワークインタフェースが、その AP メタデバイスの有効な代替パスである。ボードを構成解除する際は、AP システムが使用するインタフェースが有効なパスでない必要があります。有効なパスを、構成解除するボード上にないインタフェースに手動で切り替えてください。そのようなパスが存在しない場合は、ifconfig を停止し、AP インタフェースに対して ifconfig unplumb コマンドを実行します。有効なパスを手動で切り替えるには、apconfig(1M) コマンドを使用します。
ボードを交換する手順については、「交換ボードの取り付け」を参照してください。
ボードをインタフェースに追加する手順については、「記憶装置の追加」を参照してください。
Sun Enterprise x000/x500 サーバーでボードを追加または交換するのと同時に他のハードウェアも交換する場合は、ボードを追加または交換する前に、以下の手順でそれらのハードウェアを交換してください。
クロックボードまたはクロック + ボード
周辺装置用 AC 電源 (PPS) - PPS はホットプラグ電流を供給します。
電源・冷却モジュール (PCM) - PCM は冷却用の空気を供給します。
ここでは、システムボードの構成または構成解除を終了した後でシステムを再構成する方法について説明します。
以下の場合は、システム全体の再構成が必要になることがあります。
ボードの追加 - ボードを追加するときは、再構成処理を実行して、そのボードに関係する入出力ボードを構成する必要があります。
ボードの取り外し - ボードを取り外すだけで、そのボードを新しいボードに交換しない場合は、再構成処理を実行して、ディスク装置に対する /dev のリンクを整理します。ただし、この操作は必須ではありません。
ボードの交換 - ボードを取り外して、別のスロットに装着しなおすか、異なる入出力装置が搭載されている別のボードと交換する場合は、再構成処理を実行して、そのボードに関係する入出力ボードを構成する必要があります。ただし、同じ入出力装置を持つボードと交換して同じスロットに装着する場合は、再構成処理を実行する必要はありません。ただし、交換ボードは必ず元のボードが装着されていたスロットに装着し、/dev 内にある元のリンク名を維持してください。
DR の再構成処理は、Solaris の再構成起動処理 (boot -r) と同じです。
drvconfig; devlinks; disks; ports; tapes;
ボードの構成後に再構成処理を実行すると、それまでシステムからは見えなかった装置パス名が /etc/path_to_inst ファイルに書き込まれます。また、同じパス名が /devices 階層にも追加され、それらの装置へのリンクが /dev ディレクトリに作成されます。
ディスクコントローラ番号は、ディスクにアクセスするときに使用される /dev リンク名の一部になります。このため、再構成処理中にディスクコントローラ番号が変更された場合は、/dev リンク名も変更されます。/dev リンク名を使用するファイルシステムテーブルやソフトウェア (Solstice(TM) DiskSuite(TM) など) は、この変更の影響を受けます。/etc/vfstab ファイルを更新するとともに、/dev リンク名の変更のために必要となるその他の管理作業を行ってください。
ボードを構成解除または切り離した後で再構成処理を実行すると、そのボード上のすべてのディスクパーティションに対する /dev リンクが削除されます。その他のボードは、現在の番号付けを維持します。新たに装着されたボード上のディスクコントローラには、現在使用可能な最も小さい番号が disk(1M) によって割り当てられます。
disks(1M) ユーティリティーは、/devices ディレクトリツリーの下にある実際の特殊ディスク装置ファイルを指し示すシンボリックリンクを /dev/dsk および /dev/rdsk ディレクトリ内に作成します。これらのエントリの形式は /dev/dsk/cXtXdXsX です。
cX - ディスクコントローラ番号
tX - ディスクターゲット番号 (通常)
dX - 論理ユニット番号
sX - バーティション番号
ディスクコントローラが搭載されたボードを取り外すと、disks(1m) ユーティリティーは、/dev/dsk および /dev/rdsk 内のエントリを検査する必要があります。これらのエントリには、取り外されたコントローラに接続されていたディスクの一覧があります。disks(1M) ユーティリティーは、切り離された装置に対する参照先が /dev/dsk および /dev/rdsk から削除されていることを検出します。この削除によって、論理コントローラ番号は再び使用することができるようになります。このコントローラ番号の再利用は、システムに追加されたディスクコントローラに予想外のコントローラ番号が割り当てられると、混乱を生じる可能性があります。