Sun Enterprise 6x00、5x00、4x00、3x00 システム Dynamic Reconfiguration ユーザーマニュアル

第 2 章 機能と定義

この章では、動的再構成 (DR) の仕組みと DR が使用されている用語について説明します。

このマニュアルの使用方法

  1. 再構成するボードまたはカードケージスロットの名前と状態を確認します。この確認には、オンラインの DR 状態報告を使用します。「ボードの状態の監視方法」を参照してください。

  2. 次の表から、ボードまたは装置の状態を調べ、「参照先」欄に示されている作業または関連マニュアルに進みます。

    表 2-1 DR で定義されている状態

    状態 

    説明 

    参照先 

    empty

    スロットにボードがありません。すべての LED が消灯しています。 

    「新しいボードの取り付け」を参照してください。

    disconnected

    ボードは装着されていますが、電気的に切り離されています。システムはボードの種類を確認できます。LED はボードが低電力になっていて、いつでも取り外せることを示します。 

    LED: 緑、黄、緑 (消灯、点灯、消灯) 

    この状態にするには、cfgadm -c disconnect コマンドを実行します。

    disconnected 状態のボードを取り外すには、システムの保守マニュアルを参照してください。disconnected 状態のボードに電力を供給するには、「新しいボードの取り付け」を参照してください。

    connected

    ボードが電気的に接続されていて、電力が供給されています。システムはボードの温度を監視し、高すぎる場合は冷却します。 

    LED: 緑、黄、緑 (点灯、消灯、消灯) 

    この状態にするには、cfgadm -c connect コマンドを実行します。

    connected 状態のボードを取り外すには、「ボードの取り外し」を参照してください。connected 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。

    configured

    ボード上の装置が完全に初期化されていて、マウントまたは構成して使用することができます。 LED は正常な動作状態を示します。 

    LED: 点灯、消灯、点滅 

    この状態にするには、cfgadm -c configure コマンドを実行します。

    configured 状態のボードを取り外すには、「ボードの取り外し」を参照してください。

    unconfigured

    受容体の empty 状態など、他のすべての装置状態を含みます。LED の状態は connected 状態と同じです。

    LED: 緑、黄、緑 (点灯、消灯、点滅) 

    この状態にするには、cfgadm -c configure コマンドを実行します

    unconfigured 状態のボードを取り外すには、「ボードの取り外し」を参照してください。unconfigured 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。

    unknown

    現在の条件を特定できません。この状態は、使用システムの動作中に新しいボードを取り付けたとき、あるいは再起動する前に無効なボードの一覧にボードを登録したときに発生します。受容体が connected 状態になると、その接続点の状態が unknown から ok または failed に変わります。

    unknown 状態のボードを使用するには、「新しいボードの取り付け」を参照してください。

    ok

    障害は検出されませんでした。この条件は、ボードの接続後にだけ発生し、ボードが物理的に取り外されるか、なんらかの障害が検出されるまで継続します。ok になるには、正常なハードウェア間の互換性、ファームウェアの正しいバージョン、適切な電力、冷却、予備電圧が必要です。

    ok 状態のボードを取り外すには、「ボードの取り外し」を参照してください。

    failing

    この条件は、ok 状態のボードで問題が発生した場合にのみ発生し、たとえば、ボードが過熱し始めていることを示します。この状態は、問題が解決されるか、接続点が切り離されるまで継続します。

    failing 状態のボードを取り外すには、「ボードの取り外し」を参照してください。 過熱などの問題を解決するには、使用システムの保守マニュアルを参照してください。

    failed

    ボードが POST/OBP に失敗しました。この条件は、起動中または接続に失敗したときに発生します。回復不可能と見なされ、ボードが物理的に取り外されるまで継続します。接続点が failed 状態になった場合、受容体が disconnected より先の状態になることはありません。

    failed 状態のボードを取り外すには、「ボードの取り外し」を参照してください。

    unusable

    接続点に互換性のないハードウェアが接続されているか、電力、冷却、予備電流不足によって接続点が empty になっているかのいずれかです。unusable 条件は必ず回復できます。unusable 状態の原因は、(1) スロットの冷却が適切でない、(2) 空のスロットに電力供給が検出された、(3) 切り離されているボードの冷却、電力供給が不適切であるか、サポートされていないハードウェアがある、(4) 起動中またはボードの装着時にファームウェアが問題を検出した、のいずれかです。

    unusable 状態のスロットからボードを取り外すには、「ボードの取り外し」を参照してください。スロットの過熱などの問題を解決するには、使用システムの保守マニュアルを参照してください。

ボードの状態の監視方法

cfgadm プログラムは、DR ボードおよびスロットの状態を表示することができます。

オプションなしで使用された場合、cfgadm コマンドは、システム内の認識されているすべての DR 接続点の簡単な一覧を表示します。cfgadm コマンドの出力例を以下に示します。


例 2-1 cfgadm コマンドの出力例

# cfgadm
Ap_Id            Receptacle     Occupant       Condition
ac0:bank0        connected      configured     ok
ac0:bank1        connected      configured     ok
ac1:bank1        connected      configured     ok
sysctrl0:slot0   connected      configured     ok
sysctrl0:slot1   empty          unconfigured   unknown
sysctrl0:slot2   connected      configured     ok
sysctrl0:slot3   connected      configured     ok
sysctrl0:slot4   connected      configured     ok
sysctrl0:slot5   disconnected   unconfigured   unknown
sysctrl0:slot6   connected      configured     ok
sysctrl0:slot7   empty          unconfigured   unknown
#

-v オプション付きで使用された場合、cfgadm コマンドは詳細な一覧を表示します。


例 2-2 -v オプションを指定した cfgadm コマンドの出力例

# cfgadm -vAp_Id            Receptacle  
  Occupant       Condition   Information      When           Type
       Busy   Phys_ID
sysctrl0:slot0   connected      configured     ok          non-detachable
  Jul 23 10:24   cpu/mem     n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot0
sysctrl0:slot1   empty          unconfigured   unknown         
            Jul 23 10:24   unknown     n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot1
sysctrl0:slot2   connected      configured     ok              
            Jul 23 10:24   cpu/mem     n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot2
sysctrl0:slot3   connected      configured     ok              
            Jul 23 10:24   dual/-pci   n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot3
sysctrl0:slot4   connected      configured     ok              
            Jul 23 10:24   dual-sbus   n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot4
sysctrl0:slot5   disconnected   unconfigured   unknown         
            Jul 23 10:24   disk        n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot5
sysctrl0:slot6   connected      configured     ok              
            Jul 23 10:24   dual-sbus   n      /devices/central@1f,0/fhc@0,f880O000/clock-board@0,900000:slot6

この出力には、以下のような有用な詳細情報が含まれます。

図 2-1 cfgadm -v の表示情報

Graphic

対応しているハードウェア

下記の表は、現在対応しているボードと対応していないボードの一覧です。

表 2-2 対応しているボードと対応していないボード

名前 

対応 

ボード情報 

CPU/メモリー 

× 

 

CPU/メモリー + 

× 

 

入出力タイプ 1 (SBus)  

○ 

SBus スロット × 3、FC/OM ファイバチャネルスロット × 2 

入出力タイプ 2 

○ 

グラフィックススロット × 1、SBus スロット × 2、FC/OM ファイバチャネルスロット × 2 

入出力タイプ 3 

× 

PCI スロット × 2、FC/OM ファイバチャネルスロット X 2 

入出力タイプ 4 

○ 

SBus スロット × 3、 GBIC (FC/AL) ファイバチャネルスロット × 2 

入出力タイプ 5 

○ 

グラフィックススロット × 1、SBus スロット × 2、 GBIC (FC/AL) ファイバチャネルスロット × 2 


注 -

他の種類のボードにも対応する予定です。この一覧の最新版については、以下に示す DR の Web サイトまたは Solaris(TM) 7 のリリース情報を参照してください。


http://sunsolve2.Sun.COM/sunsolve/Enterprise-dr/

ソフトウェアパッチ

必要とされるソフトウェアパッチについては、Solaris 7 のリリース情報または以下に示す DR の Web サイト参照してください。

http://sunsolve2.Sun.COM/sunsolve/Enterprise-dr/

用語の定義

接続点

接続点 - ボードおよびそのカードケージスロットを集合的に表す用語

DR は、スロット、ボード、接続点の状態を表示できます。DR の目的からすれば、ボードには、そのボードが接続されている装置も含まれますから、DR では、「占有装置」という用語で、ボードとその接続装置の両方を表します。

切り離し可能性

ボードに起動ドライブなどの重要な資源が接続されている場合、そのボードを切り離すことはできません。同様に、システムに CPU ボードが 1 枚しかない場合、その CPU ボードを切り離すことはできません。

装置が切り離し可能であるには、以下の条件が満たされている必要があります。

入出力ボードへの代替パスがない場合は、以下の対処方法があります。

状態と条件

状態 - 受容体 (スロット) または占有装置 (ボード) の操作状態

条件 - 接続点 (受容体と占有装置両方) の操作状態

cfgadm プログラムは、状態および条件として 10 通りの状態を表示することができます。表 2-1 を参照してください。


注 -

このマニュアルで説明している、受容体に対する作業を行うには、受容体の 3 つある状態が、emptydisconnectedconnected の順に変化するか、あるいはその逆の connecteddisconnectedempty の順に変化する必要があります。


接続と構成

DR の主要な操作には、次の 4 つがあります。

接続 - スロットがボードに電力を供給し、ボードの温度の監視を開始します。

構成 - オペレーティングシステムがボードに機能的な役割を割り当て、ボードおよびそのボードに接続されている装置用のデバイスドライバを読み込みます。

構成解除 - システムがオペレーティングシステムからボードを論理的に切り離し、関係するデバイスドライバをオフラインにします。環境の監視は続けられますが、システムがボード上の装置を使用することはできなくなります。

切り離し - システムがボードの監視とスロットへの電力の供給を停止します。

システムボードが使用中の場合は、電源を切って取り外す前に、使用を終了して構成解除してください。新しいまたはアップグレードしたシステムボードを取り付けて、電源を入れたら、接続点に接続し、オペレーティングシステムが使用できるように構成します。

cfgadm は、1 つのコマンドで接続と構成 (または構成解除と切り離し) を行うことができますが、必要に応じて、それぞれの操作 (接続、構成、構成解除、切り離し) を別々に行うこともできます。

ホットプラグハードウェア

ホットプラグ - ホットプラグボードあるいはモジュールには、データピンが接触する前に電力の供給を受けることができる特殊なコネクタがあります。システムの動作中に、ホットプラグコネクタのないボードや装置を取り付けたり取り外したりすることはできません。

Sun Enterprise x000 および x500 システムで使用されている入出力ボードと CPU/ メモリーボードはホットプラグ対応の装置です。クロックボードや周辺装置用 AC 電源 (PPS) などはホットプラグモジュールではありません。システムの動作中に、これらの装置を取り外すことはできません。

休止

休止 - ページング不可能な Open Boot PROM (OBP) またはカーネルメモリーを搭載したシステムボードに対するの DR 構成解除または切り離し操作中、オペレーティングシステムは短時間の間一時停止します。この状態は、オペレーティングシステムの休止と呼ばれ、これらの DR 操作の重大な局面では、バックプレーンに対するすべてのオペレーティングシステムおよび装置の動作が数秒間停止する必要があります。

休止できるようになるためには、オペレーティングシステムは、すべての処理、プロセッサ、装置の動作を一時停止する必要があります。休止できなかった場合、オペレーティングシステムは、以下のような理由を表示します。

一般的に、処理の中断の失敗を引き起こす条件は一時的なものです。中断の失敗の理由を調べてください。処理の中断が失敗した原因が過渡的な条件の場合は、操作をやり直すことができます。

一時停止に対して安全な装置と一時停止に対して危険な装置

一時停止に対して安全 - 一時停止に対して安全な装置とは、オペレーティングシステムが休止しているときにメモリーアクセスや割り込みを行わない装置です。ドライバがオペレーティングシステムの休止に対応している場合、そのドライバは一時停止に対して安全です (保存停止・復元再開)。このことはまた、一時停止要求が行われたとき、そのドライバが管理する装置が開いていても、要求が正常に完了するまで、装置によるメモリーへのアクセスが行われないことを保証します。

一時停止に対して危険 - 一時停止に対して危険な装置とは、オペレーティングシステムの休止中にメモリーアクセスやシステム割り込みを許可する装置です。

一時停止に対して安全なドライバは、以下の機能を提供します。

一時停止に対して危険な装置が開いている場合、オペレーティングシステムは休止要求を拒否します。そのような装置を手動で一時停止するには、その装置を使用している処理を終了するか、他のユーザーにその装置にアクセスしないよう依頼するか、ケーブルを取り外すことによって、装置を閉じる必要があります。たとえば、非同期の入力を許容する装置を開いている場合は、オペレーティングシステムを休止する前にその装置のケーブルを取り外しておき、オペレーティングシステムが再開したら、接続しなおします。この処置によって、装置に対するトラフィックがなくなり、装置がバックプレーンにアクセスする理由がなくなります。

一時停止に対して安全なドライバの確認

quiesce-test オプションは、一時停止が可能なドライバを調べます。


# cfgadm -x quiesce-test コントローラ番号:スロット番号

テープ装置

テープ装置は、逐次的に処理を行うため、安全に動作を一時停止し、再開することはできません。つまり、すべてのテープドライバは一時停止に対して危険です。オペレーティングシステムを休止させる DR 操作を行う際は、すべてのテープ装置が閉じているか、使われていないことを確認してください。

ボードおよび装置の取り付け

新しいボードの取り付けには、後述する DR の接続操作と構成操作が関係してきます。ボードを予備として使用する場合は、取り付けるときは無効にしておいて、 後で使用するときに有効にする必要があります。

ボードの取り付け手順については、「新しいボードの取り付け」を参照してください。

既存のボードに記憶装置を追加するには、「記憶装置の追加」を参照してください。

ボードの接続

カードケージにボードを物理的に装着したら、そのボードを論理的に接続します。


# cfgadm -c connect コントローラ番号:スロット番号

コントローラ番号:スロット番号 は、論理的接続点の識別名 (ボードのシステム名) で、cfgadm の状態表示情報で調べることができます。

ボードを装着する前の状態と条件は、以下のようになります。

ボードの装着後の状態と条件は、以下のようになります。

接続点が論理的に接続された後の状態と条件は、以下のようになります。

これで、システムによってボードが認識されますが、ボード上の装置はまだ使用できません。温度が監視され、条件は電力供給と冷却の影響を受けます。

ボードの構成

ボードを論理的に構成して、システム構成にボードを追加するには、次のコマンドを入力します。


# cfgadm -c configure コントローラ番号:スロット番号

接続点が構成されると、状態と条件は以下のようになります。

これで、システムによってボード上にある使用可能な装置も認識され、すべての装置は、使用するためにマウントまたは構成することができるようになります。

構成操作がなんらかの理由で失敗した場合、個別装置と接続点の状態は configured になり、ボードが部分的にしか構成されていない特殊な状況になります。この場合、行えるのは「構成解除」操作だけです。未構成部分の構成を行うことはできません。

ボードの無効化

ボードをスペアボードにする場合は、そのボードを無効なボードの一覧に登録します。無効なボードの一覧に登録しておくことで、システムに電源を入れたとき、あるいはシステムを再起動したとき、そのボードが使用されなくなります。

ボードを無効にするには、EEPROM コマンドを使用します。


# eeprom disabled-board-list=コントローラ番号:スロット番号

次の DR コマンドで、無効にすることもできます。


# cfgadm -c disconnect -o disable-at-boot コントローラ番号:スロット番号

この後で、同じスロットに別にボードを装着しても、cfgadm の状態表示には、無効なボードとして表示されます。

構成解除されているボードの有効化

稼働中のシステムに、構成解除されているボード、すなわち、システムが使用していないボードが含まれていることがあります。構成解除されているボードには、以下が行われている可能性があります。

ボードを有効にするには、前に説明されている configure オプションを使用します。

記憶装置の追加

記憶装置の追加については、「記憶装置の追加」を参照してください。

ボードの取り外し

ボードを取り外すには、後述するように、ボードに接続されているすべての装置について、そのための準備をして、ボードの構成解除操作と切り離し操作を行う必要があります。

ボードの取り外し手順については、「ボードの取り外し」を参照してください。

入出力装置とネットワーク装置の準備

別のボード上に代替資源がない場合は、重要なシステム資源を搭載したボードを切り離すことはできません。たとえば、起動ディスクは重要なシステム資源です。

重要ではないシステム資源を搭載したボードは、その資源に対する代替パスが存在するかどうかに関係なく構成解除することができます。そのためには、システム資源のファイルシステムのすべてをマウント解除し、スワップパーティションを削除する必要があります。 マウント解除する前に、ファイルや装置を開いている処理を終了したり、lockfs(1M) を使用して、ファイルシステムにハードロックをかけたりする必要がある場合もあります。すべての入出力装置ドライバが切り離し可能である必要があります。

システムのスワップ空間は、異なるボード上のコントローラに接続されたディスク上の複数のパーティションとして構成されている必要があります。この種の構成ではスワップパーティションを動的に追加したり削除したりすることができるため、特定のスワップパーティションが重要な資源となることはありません。 詳細は、swap(1M) を参照してください。


注 -

メモリーまたははディスクスワップ空間を切り離す場合は、実行中のプログラムが動作を継続するために必要な容量のメモリーまたはディスクスワップ空間が残されている必要があります。


入出力ボードの構成解除


注 -

システムが一時停止している間は、画面、マウス、キーボードを使用することはできなくなりますが、一時停止が終了すると、再び制御できるようになります。


入出力ボードの取り外しの準備

構成解除操作を完了するには、ネットワークインタフェースを含む、そのボード上のすべての入出力装置を手動で終了する必要があります。


注 -

ボード上にある構成解除の対象部品を確認するには、ifconfigmountpfswap コマンドのいずれかを使用します。prtdiag(1M) コマンドによって情報を得ることもできますが、情報量が少なくなります。


ネットワーク装置の使用の停止

DR は、切り離されようとしているボード上のネットワークインタフェースの使用を自動的に停止しません。インタフェースは、それぞれ手動で使用を停止する必要があります。

DR は、以下の条件に当てはまるインタフェースに対する構成解除操作を許可しません。その場合、構成解除操作は失敗し、DR によってエラーメッセージが返されます。

ボードまたは装置の交換と変更

ボードを交換する手順については、「交換ボードの取り付け」を参照してください。

ボードをインタフェースに追加する手順については、「記憶装置の追加」を参照してください。

交換の手順

Sun Enterprise x000/x500 サーバーでボードを追加または交換するのと同時に他のハードウェアも交換する場合は、ボードを追加または交換する前に、以下の手順でそれらのハードウェアを交換してください。

  1. クロックボードまたはクロック + ボード

  2. 周辺装置用 AC 電源 (PPS) - PPS はホットプラグ電流を供給します。

  3. 電源・冷却モジュール (PCM) - PCM は冷却用の空気を供給します。

システムの再構成

ここでは、システムボードの構成または構成解除を終了した後でシステムを再構成する方法について説明します。

再構成する時期

以下の場合は、システム全体の再構成が必要になることがあります。

入出力装置の再構成

DR の再構成処理は、Solaris の再構成起動処理 (boot -r) と同じです。


drvconfig; devlinks; disks; ports; tapes;

ボードの構成後に再構成処理を実行すると、それまでシステムからは見えなかった装置パス名が /etc/path_to_inst ファイルに書き込まれます。また、同じパス名が /devices 階層にも追加され、それらの装置へのリンクが /dev ディレクトリに作成されます。

再構成中のディスクコントローラ番号の変更


注意 - 注意 -

ディスクコントローラ番号は、ディスクにアクセスするときに使用される /dev リンク名の一部になります。このため、再構成処理中にディスクコントローラ番号が変更された場合は、/dev リンク名も変更されます。/dev リンク名を使用するファイルシステムテーブルやソフトウェア (Solstice(TM) DiskSuite(TM) など) は、この変更の影響を受けます。/etc/vfstab ファイルを更新するとともに、/dev リンク名の変更のために必要となるその他の管理作業を行ってください。


ボードを構成解除または切り離した後で再構成処理を実行すると、そのボード上のすべてのディスクパーティションに対する /dev リンクが削除されます。その他のボードは、現在の番号付けを維持します。新たに装着されたボード上のディスクコントローラには、現在使用可能な最も小さい番号が disk(1M) によって割り当てられます。

disks(1M) ユーティリティーは、/devices ディレクトリツリーの下にある実際の特殊ディスク装置ファイルを指し示すシンボリックリンクを /dev/dsk および /dev/rdsk ディレクトリ内に作成します。これらのエントリの形式は /dev/dsk/cXtXdXsX です。

ディスクコントローラが搭載されたボードを取り外すと、disks(1m) ユーティリティーは、/dev/dsk および /dev/rdsk 内のエントリを検査する必要があります。これらのエントリには、取り外されたコントローラに接続されていたディスクの一覧があります。disks(1M) ユーティリティーは、切り離された装置に対する参照先が /dev/dsk および /dev/rdsk から削除されていることを検出します。この削除によって、論理コントローラ番号は再び使用することができるようになります。このコントローラ番号の再利用は、システムに追加されたディスクコントローラに予想外のコントローラ番号が割り当てられると、混乱を生じる可能性があります。