DR (動的再構成、Dynamic reconfiguration) はオペレーティング環境の機能の一種で、これによりシステムを動作させた状態でシステムハードウェアの再構成が可能になります。DR はオプションの機能であり、実装するかどうかはシステム管理者が決定できます。DR の最大の利点は、通常のシステム操作をほとんど中断せずに、ハードウェア資源 (CPU、メモリー、入出力インタフェースなど) の追加や交換ができることにあります。
DR 機能は、複数のシステムボードを搭載し、ホットプラグに対応したボードソケットを採用している Sun(TM) のシステムアーキテクチャーで利用できます。このマニュアルでは Solaris(TM) 8 オペレーティング環境がインストールされた Sun Enterprise(TM) 6500/6000/5500/5000/4500/4000/3500/3000 システムの DR 機能を対象に解説しているので、その他のサーバーシステムには対応していない機能もあります。
Sun Enterprise 10000 システムの DR については、『Sun Enterprise 10000 Dynamic Reconfiguration ユーザーマニュアル』を参照してください。
Sun Management Center (システムの監視および管理ソフトウェア) では、このマニュアルで説明している機能をはじめとした DR をサポートしています。詳細は、『Sun Enterprise SyMON 2.0.1 Software User's Guide』を参照してください。
以降では、個々のシステムについては「Sun Enterprise xx00 システム」または単に「システム」と表記します。
このマニュアルでは、具体的な作業の内容を説明しています。それぞれの作業および関連する情報については、以下の対応する節を参照してください。
DR に対応したボードの種類については、「制限事項」を参照してください。
ボードや装置のシステム名と状態の確認については、「ボードの状態の表示」を参照してください。
ボードの取り付けについては、「ボードの取り付け」を参照してください。
ボードの取り外しまたは交換については、「ボードの取り外し」を参照してください。
DR に対応していないデバイスドライバの削除については、「切り離しに対して危険なドライバを使用しているボードの取り外し」を参照してください。
入出力ボードへの記憶装置の接続については、「記憶装置の追加」を参照してください。
DR に関する最新情報とパッチ情報については、購入先にお問い合わせください。また、次の Web サイトから入手することもできます。
http://sunsolve2.sun.com/sunsolve/Enterprise-dr
必要なソフトウェアパッチについては、購入先にお問い合わせください。また、上記の Web サイトから入手することもできます。
SAP R/3 ソフトウェアが DR をサポートするにはパッチが必要です。SAP R/3 のバージョン 3.1I および 4.0B で必要なパッチは dw1_310.CAR、dw2_310.CAR および sapstart ですが (1999 年 2 月現在) 、これは随時変更されることがあります。パッチの最新情報については、購入先にお問い合わせください。
コンソールまたはコンソールログに次のメッセージが表示される場合、ご使用のハードウェアは DR に対応していません。このため、システムの電源が入っている間にハードウェアを取り外すことはできません。
Hot Plug not supported in this system
DR は、現在すべてのタイプのボードで完全にサポートされているわけではありません。ただし、サポート対象は追加されています。最新情報は、購入先にお問い合わせください。
cfgadm による状態表示では以下のタイプのボードが表示されますが、DR が完全にサポートされていないボードもあります。
表 1-1 ボードタイプ
タイプ |
特徴 |
---|---|
CPU/メモリー |
CPU モジュール付きの CPU/メモリーボード |
メモリー |
CPU モジュールなしの CPU/メモリーボード |
ディスクボード |
ディスクドライブ付きのシステムボード |
タイプ 1 |
SBus スロット 3 つのデュアル SBus 入出力ボード |
タイプ 2 |
SBus スロット 2 つ、フレームバッファースロット 1 つの SBus-UPA 入出力ボード |
タイプ 3 |
PCI カードアダプタスロット 2 つのデュアル PCI 入出力ボード |
タイプ 4 |
SBus スロット 3 つの SOC+ SBus 入出力ボード |
タイプ 5 |
SBus スロット 2 つ、フレームバッファースロット 1 つの SOC+ UPA 入出力ボード |
破損したボード (誤作動するボード) を使用すると、システムがクラッシュすることがあります。必ず正常に動作することが確認されているボードを使用してください。
cfgadm -v による状態表示でボードが "non-detachable" と示された場合、そのボードを動的に再構成することはできません。現在、最小番号の CPU/メモリーボードがこれに該当します。ただし、将来的には、最小番号のボードについても DR がサポートされる予定です。
現在、インタリーブ方式のメモリーを搭載したメモリーボードや CPU/メモリーボードを動的に再構成することはできません。ボードにインタリーブ方式のメモリーが搭載されているかどうかは、prtdiag または cfgadm コマンドで確認できます。
再配置不可能なメモリーを搭載した CPU/メモリーボードを動的に再構成することはできません。通常、このような CPU/メモリーボードはシステム内で 1 つだけで、cfgadm -v コマンドによる状態表示では、"PERMANENT" と示されます。
マシンによっては、動的再構成を行うためにファームウェアのアップデートが必要になります。システムの起動時に表示されるシステムメッセージを参照してください。
古いバージョンの CPU PROM では、次のようなメッセージが表示されます。
Firmware does not support Dynamic Reconfiguration
最近のバージョンの CPU PROM では、表示されるメッセージは異なる可能性があります。
Solaris 8 オペレーティング環境で DR を実行する際は、CPU/メモリーボードの PROM のアップグレードが必要な場合があります。CPU のアップグレードファームウェアの入手方法については、購入先にお問い合わせください。
ボードの PROM バージョンの確認方法については、「SPARC: PROM のバージョンの表示」を参照してください。
Sun StorEdge(TM) A5000 ディスクアレイ、または Sun Enterprise 3500 システムの内蔵 FC-AL ディスクのファームウェアは、ST19171FC 0413 以降のバージョンである必要があります。詳細は、購入先または担当営業にお問い合わせ下さい。
ボードとスロットに関する情報の表示には cfgadm プログラムを使用します。cfgadm コマンドのオプションについては、cfgadm(1) のマニュアルページを参照してください。
cfgadm の多くの操作では、ボードのシステム名の指定が必要になります。ボードのシステム名を確認するには、次のように入力します。
# cfgadm
オプションを付けずに cfgadm コマンドを使用すると、メモリーバンクやボードスロットなど、認識されているすべての接続点に関する情報が表示されます。下記は、 cfgadm の一般的な出力例です。
# cfgadm Ap_Id Receptacle Occupant Condition ac0:bank0 connected unconfigured ok ac0:bank1 empty unconfigured unknown ac1:bank0 connected unconfigured ok ac1:bank1 empty unconfigured unknown ac2:bank0 connected configured ok ac2:bank1 empty unconfigured unknown ac3:bank0 empty unconfigured unknown ac3:bank1 empty unconfigured unknown ac4:bank0 empty unconfigured unknown ac4:bank1 connected unconfigured ok ac8:bank0 empty unconfigured unknown ac8:bank1 empty unconfigured unknown sysctrl0:slot0 connected configured ok sysctrl0:slot1 connected configured ok sysctrl0:slot2 connected configured ok sysctrl0:slot3 empty unconfigured unknown sysctrl0:slot4 empty unconfigured unusable sysctrl0:slot5 connected configured ok sysctrl0:slot6 empty unconfigured unusable sysctrl0:slot7 empty unconfigured unknown sysctrl0:slot8 connected configured ok sysctrl0:slot9 connected configured ok sysctrl0:slot10 connected configured ok sysctrl0:slot11 connected configured ok sysctrl0:slot12 empty unconfigured unusable sysctrl0:slot13 disconnected unconfigured unknown sysctrl0:slot14 empty unconfigured unusable sysctrl0:slot15 disconnected unconfigured unknown
情報はメモリーバンク、ボードスロットの順に表示されます。この例では合計 12 個のバンクが表示されており、このことからシステムには CPU/メモリーボードが 6 枚存在していることが分かります (Sun Enterprise xx00 システムの CPU/メモリーボードには、 1 枚につき SIMM スロットバンクが 2 つあります)。
さらに詳細な状態を知りたい場合は、cfgadm -v コマンドを使用します。-v オプションを使うことで詳細説明が有効になります。cfgadm -v コマンドは、例 1-2 のように状態表示を出力します。行が折り返されていることに注意してください (このコード例では例 1-1 と同じシステムの状態を出力しています)。
# cfgadm -v Ap_Id Receptacle Occupant Condition Information When Type Busy Phys_Id ac0:bank0 connected unconfigured ok slot0 64Mb base 0xc0000000 disabled-at-boot Dec 17 13:30 memory n /devices/fhc@0,f8800000/ac@0,1000000:bank0 ac0:bank1 empty unconfigured unknown slot0 empty Dec 16 22:42 memory n /devices/fhc@0,f8800000/ac@0,1000000:bank1 ac1:bank0 connected unconfigured ok slot2 1Gb base 0x0 Dec 17 13:30 memory n /devices/fhc@4,f8800000/ac@0,1000000:bank0 ac1:bank1 empty unconfigured unknown slot2 empty Dec 16 22:42 memory n /devices/fhc@4,f8800000/ac@0,1000000:bank1 ac2:bank0 connected configured ok slot5 1Gb base 0x40000000 permanent Dec 16 22:42 memory n /devices/fhc@a,f8800000/ac@0,1000000:bank0 ac2:bank1 empty unconfigured unknown slot5 empty Dec 16 22:42 memory n /devices/fhc@a,f8800000/ac@0,1000000:bank1 ac3:bank0 empty unconfigured unknown slot8 empty Dec 16 22:42 memory n /devices/fhc@10,f8800000/ac@0,1000000:bank0 ac3:bank1 empty unconfigured unknown slot8 empty Dec 16 22:42 memory n /devices/fhc@10,f8800000/ac@0,1000000:bank1 ac4:bank0 empty unconfigured unknown slot11 empty Dec 16 22:42 memory n /devices/fhc@16,f8800000/ac@0,1000000:bank0 ac4:bank1 connected unconfigured ok slot11 64Mb base 0xc4000000 disabled-at-boot Dec 17 13:30 memory n /devices/fhc@16,f8800000/ac@0,1000000:bank1 ac8:bank0 empty unconfigured unknown slot10 empty Dec 16 22:42 memory n /devices/fhc@14,f8800000/ac@0,1000000:bank0 ac8:bank1 empty unconfigured unknown slot10 empty Dec 16 22:42 memory n /devices/fhc@14,f8800000/ac@0,1000000:bank1 sysctrl0:slot0 connected configured ok non-detachable Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot0 sysctrl0:slot1 connected configured ok non-detachable Dec 16 22:42 dual-sbus n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot1 sysctrl0:slot2 connected configured ok Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot2 sysctrl0:slot3 empty unconfigured unknown Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot3 sysctrl0:slot4 empty unconfigured unusable Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot4 sysctrl0:slot5 connected configured ok Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot5 sysctrl0:slot6 empty unconfigured unusable Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot6 sysctrl0:slot7 empty unconfigured unknown Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot7 sysctrl0:slot8 connected configured ok Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot8 sysctrl0:slot9 connected configured ok Dec 16 22:42 dual-sbus n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot9 sysctrl0:slot10 connected configured ok Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot10 sysctrl0:slot11 connected configured ok Dec 16 22:42 cpu/mem n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot11 sysctrl0:slot12 empty unconfigured unusable Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot12 sysctrl0:slot13 disconnected unconfigured unknown disabled at boot Dec 16 22:42 dual-sbus n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot13 sysctrl0:slot14 empty unconfigured unusable Dec 16 22:42 unknown n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot14 sysctrl0:slot15 disconnected unconfigured unknown disabled at boot Dec 16 22:42 dual-sbus n /devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:slot15
例 1-2の詳細表示の各部の意味は、次の通りです。
この章の残りの部分では、DR で使用されるコマンドと用語について説明します。
cfgadm は、このマニュアルで最もよく使う DR 用コマンドです。
ボードの状態を表示する。
故障デバイスを使用不可に設定 (論理的構成から削除) して、オペレーティング環境のクラッシュを未然に防ぐ。
新規ボードの追加、あるいはボードの交換の際に発生するシステムアプリケーションの中断を最小限に抑える。
ボードのテストを開始する。
システムのボード構成を変更する。
ボードやボードに関係する接続装置の、その他のハードウェア固有機能を起動する。
多くの手順で、ボードのシステム名の指定が必要になります。ボードやカードケージスロットの名前や状態を確認するには、cfgadm の状態表示機能を使用します。表示例については、「ボードの状態の表示」を参照してください。
Sun Enterprise 6x00/5x00/4x00/3x00 システムで使用する cfgadm コマンドのマニュアルページとしては、cfgadm(1M)、cfgadm_sysctrl(1M)、cfgadm_ac(1M) が用意してあります。 cfgadm(1M) では、cfgadm コマンドの基本機能を説明しています。cfgadm_sysctrl(1M) では、CPU/メモリーボードの新規サポート情報など、システムボードに関する追加情報を提供しています。cfgadm_ac(1M) は、メモリーバンクのサポートに関する追加情報を提供しています。
cfgadm のユーザーインタフェースは、現在のバージョンではコマンド行形式を採用しています。システム監視および管理用ソフトウェアである Sun Enterprise SyMON(TM) はグラフィカルユーザーインタフェースを採用しており、このマニュアルで説明している DR 機能もサポートしています。SyMON の詳細は、『Sun Enterprise SyMON 2.0.1 Software User's Guide』を参照してください。
必須ではありませんが、DR は AP (代替パス設定、Alternate Pathing) ソフトウェアと組み合わせて使用できます。AP は入出力ボード間で入出力処理を切り替えます。DR と AP のコマンドを組み合わせると、システム操作をまったく、あるいはほとんど中断することなく、入出力ボードを取り外したり、交換、停止したりできます。入出力処理では、AP は冗長ハードウェアが必要になります。つまりAP を使用して、ある装置からボードを取り外したり交換するためには、同じ装置にその代替となる入出力ボードが接続されている必要があります。AP の詳細は、『Sun Enterprise サーバー Alternate Pathing ユーザーマニュアル』を参照してください。
表 1-2 は、cfgadm を使用した時に表示されるボードおよびスロットの状態の一覧です。この表の後で、それぞれの状態の意味およびその対応策を詳しく説明します。
表 1-2 ボード、装置、スロットの状態
状態 |
説明 |
---|---|
empty |
スロットにボードが存在しません。LED はすべてオフです。 |
disconnected |
ボードは存在しますが、電気的には切断されている状態です。 |
connected |
ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。 |
configured |
ボード上の装置が完全に初期化され、マウントあるいは構成することによって、使用できる状態です。 |
unconfigured |
unconfigured 状態は、受容体が empty 状態であるなどの、装置の他のあらゆる状態を表します。 |
unknown |
どの状態にあるのか、特定できない状態です。 |
ok |
何の問題も検出されていない状態です。 |
failing |
ok 状態にあったボードで問題が発生しようとしています。 |
failed |
ボードが POST/OBP に失敗しました。 |
unusable |
接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在します。 |
スロットにボードが存在しません。LED はすべてオフです。
ボードの取り付け方法については、「ボードの取り付け」を参照してください。
ボードは存在しますが、電気的に切断されている状態です。この状態では、システムはボードのタイプを識別できます。このとき、ボードの LED は、ボードが低電力モードに設定されいつでも取り外せる状態になっていることを示します。
disconnected 状態では、LED の表示は緑色、黄色、緑色 (オフ、オン、オフ) になります。ボードをこの状態にするには、cfgadm -c disconnect を使用します。
disconnected 状態のボードの取り外しについては、システムのサービスマニュアルを参照してください。
disconnected 状態のボードに電力を供給する方法については、「ボードの取り付け」を参照してください。
ボードが電気的に接続され、電力が供給されている状態です。システムによって、ボードの温度と冷却状態が監視されています。
connected 状態では、LED の表示は緑色、黄色、緑色 (オン、オフ、オフ) になります。
ボードをこの状態にするには、cfgadm -c connect を使用します。connected 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。connected 状態のボードの使用については、「ボードの取り付け」を参照してください。
ボード上の装置が完全に初期化され、マウントあるいは構成することによって使用可能にできる状態です。LED の表示は通常の動作時のパターンになります。
configured 状態では、LED の表示は、オン、オフ、点滅、になります。
ボードをこの状態にするには、cfgadm -c configure を使用します。
configured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
unconfigured 状態とは上記以外のあらゆる装置状態を示し、これにはたとえば受容体の empty 状態なども含まれます。LED の表示パターンは、受容体が connected の状態の時と同じです。
LED は緑色、黄色、緑色 (オン、オフ、オフ) になります。
ボードをこの状態にするには、cfgadm -c unconfigure を使用します。
unconfigured 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
unconfigured 状態のボードの使用については、「ボードの取り付け」を参照してください。
現在の状態が特定できないことを示します。このような状況が発生するのは、動作中のシステムに新しいボードを取り付けた場合、または再起動する前に使用不可ボードリストにボードが追加された場合のいずれかです。受容体の状態が connected に移行すると、接続点の状態はこの unknown から、ok または failed のいずれかに変わります。
unknown 状態のボードの使用については、「ボードの取り付け」を参照してください。
まったく問題が検出されていない状態です。ボードの接続後のみ発生します。ボードが物理的に取り外されるか、または何か問題が検出されるまで、この状態は継続します。ok 状態になるには、ハードウェアの互換性とファームウェアのバージョンが正しく、電力および予備電流の供給状態と冷却状態が適切であることが必要です。
ok 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
ok 状態にあったボードに問題が発生した状態を示します。たとえば、ボードの温度が高くなりすぎた場合などがこれに相当します。この状態は問題が解決されるか、あるいは接続点が切り離されるまで続きます。
failing 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
ボードの温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。
ボードが POST/OBP に失敗しました。failed 状態が発生する可能性があるのは、起動中または接続の失敗後です。この状態は解決不可能であり、ボードを物理的に取り外さない限りこの状態は続きます。接続点の状態が failed になっている場合、受容体の状態は disconnected より先に改善されることはありません。
failed 状態のボードの取り外しについては、「ボードの取り外し」を参照してください。
接続点のハードウェアに互換性がないか、empty 状態の接続点に問題 (電力供給、冷却、予備電流のいずれかが不適切) が存在する状態です。この状態は解決可能です。この状態が発生する原因は、以下のいずれかです。
スロット内の冷却が不適切。
empty 状態のスロットに電力が供給されている。
disconnected 状態のボードに問題 (電力供給または冷却が不適切であるか、サポートされていないハードウェアが使用されている) が存在する。
起動中またはボードの取り付け時に、ファームウェアが問題を検出した。
unusable 状態のスロットからのボードの取り外しについては、「ボードの取り外し」を参照してください。
スロット内の温度が高くなりすぎたときの対処方法については、システムのサービスマニュアルを参照してください。
この節では、cfgadm の状態表示で使用されているメモリーバンクおよび CPU の番号割り当て規則について説明します。
cfgadm の状態表示では、ボードのアドレスコントローラ番号 (ac0、ac1、ac2 など) 順にメモリーバンクを一覧表示します。ac 番号の順序は物理的なボードスロット番号ではなく、システムに CPU/メモリーボードを取り付けた順序に依存することに注意してください。たとえば、2 枚目の CPU/メモリーボードがスロット 7 にすでに取り付けられていて、新たにスロット 4 に 3 枚目の CPU/メモリーボードを取り付けた場合、物理スロット番号の順序では、3 枚目に取り付けた CPU/メモリーボードは 2 枚目のボードより前になりますが、cfgadm の状態レポートの表示順序では、3 枚目の ボード (ac2) は 2 枚目のボードの後になります。
CPU は、ボード番号に基づく CPU 番号を用いて識別されます。第 1 CPU 番号の値はボード番号の値の 2 倍 (2 × n) です。第 2 CPU 番号の値はボード番号の値を 2 倍して 1 を加えた値 (2 × n + 1) になります。
たとえば、ボード 3 の CPU 番号は 6 と 7 になります。ボード 3 の CPU 情報を調べる場合は、psrinfo コマンドで CPU 番号に 6 と 7 を指定します。
# psrinfo 6 7 6 on-line since 01/10/99 18:00:56 7 on-line since 01/10/99 18:01:01
接続点 - ボードおよびそのカードケージスロットを集合的に表す用語です。
DR は、スロット、ボード、接続点の状態を表示できます。DR の定義では、ボードには、そのボードが接続されている装置も含まれますから、DR では、「占有装置」という用語で、ボードとその接続装置の両方を表します。
スロット (受容体) は、ホストマシンから占有装置を電気的に切り離すことができます。すなわち、DR ソフトウェアは、1 つのスロットを低電力モードにすることができます。
受容体には、スロット番号に従って名前を付けることも、あるいは SCSI チェーンのように匿名のままにすることもできます。使用できるすべての論理的接続点の一覧を表示するには、cfgadm コマンドで -l オプションを使用します。
占有装置としての入出力ボードには、インタフェースケーブルで接続された外部記憶装置が含まれます。
物理接続点 - カードケージスロットのソフトウェアドライバと位置を表します。以下に、物理接続点の例を示します。
/devices/central@1f,0/fhc@0,f8800000/clock-board@0,900000:sysctrl,slot0
sysctrl0 の l は英小文字のエル、0 は数字のゼロです。
ある装置が切り離し可能であるためには、以下の条件を満たしている必要があります。
デバイスドライバが DDI_DETACH に対応している
重要な資源が冗長であるか、または代替パスからアクセス可能である。CPU およびメモリーバンクは、重要な冗長資源にすることができます。また、代替パス (代替入出力ボード) を使用してアクセスできる重要な資源としては、たとえばディスクドライブがあります。
ボードには、切り離せないものもあります。たとえば、システムに CPU ボードが 1 枚しか存在しない場合は、その CPU ボードを切り離すことはできません。また、起動ドライブを制御している入出力ボードも切り離せません (システムに AP がインストールされていない場合は、起動ドライブの制御を代替の入出力ボードに切り替えて対応できます)。
現行のバージョンのソフトウェアでは、最小番号の CPU/メモリーボードは切り離せません。cfgadm -v を使用して詳細な状態を表示すると、このようなボードの状態は non-detachable と認識されているのが分かります。たとえば、コード例 1-2 では、スロット 0 と 1 のボードが non-detachable となっています。
入出力ボードへの代替パスがない場合は、以下の対処方法があります。
別のボードにディスクチェーンを追加する。この追加によって二次入出力ボードを切り離すことができます。
その装置に対して 2 枚目の入出力ボードを経由して 2 つ目のパスを追加する。AP ソフトウェアを使用して代替ボード経由のアクセスに切り換えることにより、2 つ目のディスクチェーンへのアクセス手段を失うことなく、入出力ボードが切り離し可能にできます。
状態は、受容体 (スロット) または占有装置 (ボード) の操作状態です。
条件は、接続点 (受容体と占有装置両方) の操作状態です。
cfgadm プログラムは、10 通りの状態および条件を表示できます。表 1-2 を参照してください。
このマニュアルで説明している、受容体に対する作業を行うには、受容体の 3 つある状態が、empty、disconnected、connected の順に変化するか、あるいはその逆の connected、disconnected、empty の順に変化する必要があります。
ボードに関する主な操作は、次の 4 つがあります。
接続 - スロットがボードに電力を供給し、ボードの温度の監視を開始します。入出力ボードの場合、接続操作は構成操作の一部です (下記を参照)。接続は、最高で約 1 分ほどの遅延を伴います。実際の遅延時間は、ボードの種類とシステム内のボード数によって異なります。
構成 - オペレーティング環境がボードに機能的な役割を割り当て、ボードおよびそのボードに接続されている装置用のデバイスドライバを読み込みます。
構成解除 - システムがオペレーティング環境からボードを論理的に切り離し、関係するデバイスドライバをオフラインにします。環境の監視は続けられますが、システムがボード上の装置を使用することはできなくなります。
切り離し - システムがボードの監視とスロットへの電力の供給を停止します。
システムボードが使用中の場合は、電源を切って取り外す前に、使用を終了して構成解除してください。新しいまたはアップグレードしたシステムボードを取り付けて、電源を入れたら、接続点に接続し、オペレーティング環境が使用できるように構成します。
cfgadm は、1 つのコマンドで接続と構成 (または構成解除と切り離し) を行うことができますが、必要に応じて、それぞれの操作 (接続、構成、構成解除、切り離し) を別々に行うこともできます。
ホットプラグボードあるいはモジュールには、データピンが接触する前に電力の供給を受けることができる特殊なコネクタがあります。システムの動作中に、ホットプラグコネクタのないボードや装置を取り付けたり取り外したりすることはできません。
Sun Enterprise x000 および x500 システムで使用されている入出力ボードと CPU/メモリーボードはホットプラグ対応の装置です。クロックボードや周辺装置用 AC 電源 (PPS) などはホットプラグモジュールではありません。システムの動作中に、これらの装置を取り外すことはできません。
ページング不可能な Open Boot PROM (OBP) またはカーネルメモリーを搭載したシステムボードに対する DR 構成解除または切り離し操作中、オペレーティング環境は短時間の間一時停止します。この状態は、オペレーティング環境の休止と呼ばれ、これらの DR 操作の重大な局面では、バックプレーンに対するすべてのオペレーティング環境および装置の動作が数秒間停止する必要があります。
システムを休止して、ドライバが DR に対応しているかどうかを調べる方法については、「ドライバが一時停止に対して安全かどうかの確認」を参照してください。
休止できるようになるためには、オペレーティング環境は、すべてのプロセス、CPU、装置の動作を一時停止する必要があります。休止できなかった場合、オペレーティング環境は、以下のような理由を表示します。
ユーザースレッドが一時停止しなかった。
リアルタイム処理が動作している。
オペレーティング環境が一時停止させることができない装置が存在する。
一般的に、処理の中断の失敗を引き起こす条件は一時的なものです。中断の失敗の理由を調べてください。処理の中断が失敗した原因が過渡的な条件の場合は、操作をやり直すことができます。
システムの一時停止中は、画面、マウス、キーボードを操作することはできません。ただし、システムが動作を再開すると、再び制御できるようになります。
一時停止に対して安全な装置とは、オペレーティング環境が休止しているときにメモリーアクセスや割り込みを行わない装置です。ドライバがオペレーティング環境の休止に対応している場合、そのドライバは一時停止に対して安全です (保存停止・復元再開)。このことはまた、一時停止要求が行われたとき、そのドライバが管理する装置が開いていても、要求が正常に完了するまで、装置によるメモリーへのアクセスが行われないことを保証します。
一時停止に対して安全なドライバは、以下の機能を提供します。
ユーザースレッドの停止。
各デバイスドライバにおける DDI_SUSPEND 呼び出しの実行。
クロックの停止。
CPU の停止。
一時停止に対して危険な装置とは、オペレーティング環境の休止中にメモリーアクセスやシステム割り込みを許可する装置です。
一時停止に対して危険な装置が開いている場合、オペレーティング環境は休止要求を拒否します。そのような装置を手動で一時停止するには、その装置を使用している処理を終了するか、他のユーザーにその装置にアクセスしないよう依頼するか、ケーブルを取り外すことによって、装置を閉じる必要があります。たとえば、非同期の入力を許容する装置を開いている場合は、オペレーティング環境を休止する前にその装置のケーブルを取り外しておき、オペレーティング環境が再開したら、接続し直します。この処置によって、装置に対するトラフィックがなくなり、装置がバックプレーンにアクセスする理由がなくなります。
テープ装置は、逐次的に処理を行うため、安全に動作を一時停止し、再開することはできません。つまり、すべてのテープドライバは一時停止に対して危険です。オペレーティング環境を休止させる操作を行う際は、すべてのテープ装置が閉じているか、使われていないことを確認してください。
新しいボードの取り付けには、後述する接続操作と構成操作が関係してきます。ボードを予備として使用する場合は、取り付けるときは無効にしておいて、 後で使用するときに有効にする必要があります。
この節では、具体的な作業手順を説明しません。作業手順は、第 2 章「作業手順」で説明します。
ボードの取り付けについては、「ボードの取り付け」を参照してください。
既存のボードに記憶装置を追加する方法については、「記憶装置の追加」を参照してください。
カードケージにボードを物理的に取り付けたら、次にそのボードを論理的に接続する必要があります。入出力ボードの場合は、構成操作の実行時にボードは自動的に接続されます。CPU/メモリーボードの場合、このような接続処理は、構成操作の一部には含まれていません。
ボードを接続するための構文は、以下のとおりです。
cfgadm -c connect sysctrl0:slot番号
sysctrl0:slot番号 は接続点の論理識別名 (ボードのシステム名) で、これは cfgadm の状態表示機能を使って調べることができます。
この接続処理の際には、プロンプトが再表示されるまでに 15 秒から 1 分ほどの間隔が発生します。この遅延時間の長さは、ボードの種類とシステムの規模、複雑さによって異なります。 この遅延時間中に、システムがボードをテストします。
ボードを装着する前の状態と条件は、以下のようになります。
受容体の状態 - Empty
占有装置の状態 - Unconfigured
条件 - Unknown
ボードの装着後の状態と条件は、以下のようになります。
受容体の状態 - Disconnected
占有装置の状態 - Unconfigured
条件 - Unknown
接続点が論理的に接続された後の状態と条件は、以下のようになります。
受容体の状態 - Connected
占有装置の状態 - Unconfigured
条件 - OK
これで、システムによってボードが認識されますが、ボード上の装置はまだ使用できません。温度が監視され、条件は電力供給と冷却の影響を受けます。
disconnected 状態の入出力ボードの構成操作では、自動的に接続操作も行われます。
CPU/メモリーボードの構成には、次の cfgadm コマンドを使用します。
# cfgadm -c configure sysctrl0:slot番号
接続点が構成されると、状態と条件は以下のようになります。
受容体の状態 - Connected
占有装置の状態 - Configured
条件 - OK
これで、システムによってボード上にある使用可能な装置も認識され、すべての装置は、使用するためにマウントまたは構成することができるようになります。
構成操作がなんらかの理由で失敗した場合、個別装置と接続点の状態は configured になり、ボードが部分的にしか構成されていない特殊な状況になります。この場合、行えるのは「構成解除」操作だけです。未構成部分の再構成を行うことはできません。
正常なボードを予備用としてシステムに装着しておくことができます。スペアのボードを準備しておくには、使用不可なボードのリストにそのボードの名前を登録します。この登録をしておくとそのボードは、システムの電源の投入時、あるいはシステムを再起動したときに、使用しないように設定されます。「ボードを使用不可にする」を参照してください。
スペアボードの使用については、「1 つのボードを使用可能にする」を参照してください。
稼働中のシステムに、構成解除されているボード、すなわち、システムが使用していないボードが含まれていることがあります。構成解除されているボードには、以下が行われている可能性があります。
システム起動後のシステムへの接続。
使用不可の設定。
構成解除。
ボードを使用可能にするには、「ボードの構成」で説明している configure オプションを使用します。
記憶装置の追加については、「記憶装置の追加」を参照してください。
ボードを取り外すには、後述するように、ボードに接続されているすべての装置について、そのための準備をして、ボードの構成解除操作と切り離し操作を行う必要があります。
この節では、具体的な作業手順を説明しません。作業手順は、第 2 章「作業手順」で説明します。
ボードの取り外しは、大きく分けて次の 2 つの作業で構成されます。
ボード上の装置の準備。
ボードの構成解除。
現在のところ、インタリーブ方式のメモリーに対して動的再構成を行うことはできません。システムでインタリーブ方式のメモリーが使用されているかどうかを確認するには、prtdiag または cfgadm コマンドを使用します。インタリーブ方式のメモリーが搭載されていないメモリー ボードおよび CPU/メモリーボードは、動的に再構成することができます。
別のボード上に代替資源がない場合は、重要なシステム資源を搭載したボードを切り離すことはできません。たとえば、起動ディスクは重要なシステム資源です。
重要ではないシステム資源を搭載したボードは、その資源に対する代替パスが存在するかどうかに関係なく構成解除することができます。そのためには、システム資源のファイルシステムのすべてをマウント解除し、スワップパーティションを削除する必要があります。 マウント解除する前に、ファイルや装置を開いている処理を終了したり、lockfs(1M) を使用して、ファイルシステムにハードロックをかけたりする必要がある場合もあります。すべての入出力装置ドライバが切り離し可能である必要があります。
システムのスワップ空間は、異なるボード上のコントローラに接続されたディスク上の複数のパーティションとして構成されている必要があります。この種の構成ではスワップパーティションを動的に追加したり削除したりすることができるため、特定のスワップパーティションが重要な資源となることはありません。 詳細は、swap(1M) を参照してください。
メモリーまたはディスクスワップ空間を切り離す場合は、実行中のプログラムが動作を継続するために必要な容量のメモリーまたはディスクスワップ空間が残されている必要があります。
構成解除操作を完了するには、ネットワークインタフェースを含む、そのボード上のすべての入出力装置を手動で終了する必要があります。システムに AP がインストールされている場合は、すべての入出力機能を取り外すボードから代替入出力ボードに切り替えることができます。
ボード上にある構成解除の対象部品を確認するには、prtdiag(1M)、ifconfig(1M)、mount(1M)、ps(1M)、swap(1M) コマンドのいずれかを使用します。prtdiag(1M) コマンドによって情報を得ることもできますが、情報量が少なくなります。
ボードを構成解除されることによって、そのボード上のネットワークインタフェースの使用が自動的に停止するわけではありません。インタフェースは、それぞれ手動で使用を停止する必要があります。
以下の条件に当てはまるインタフェースを構成解除することはできません。その場合、構成解除操作は失敗し、エラーメッセージが返されます。
ネットワークインタフェースがマシンの主ネットワークインタフェースである。すなわち、その IP アドレスが /etc/nodename ファイルに含まれているネットワークインタフェース名に対応している。この場合、マシンの主ネットワークインタフェースを終了すると、ネットワーク情報ネームサービスの動作が妨げられ、その結果として、ftp(1)、rsh(1)、rcp(1)、rlogin(1) などのアプリケーションを使用して遠隔ホストにネットワーク接続することができなくなります。NFS クライアントとサーバーの動作も影響を受けます。
AP メタデバイスにインタフェースが設定されている際に、ネットワークインタフェースが、その AP メタデバイスの有効な代替パスである。ボードを構成解除する際は、AP システムが使用するインタフェースが有効なパスでない必要があります。有効なパスを、構成解除するボード上にないインタフェースに手動で切り替えてください。そのようなパスが存在しない場合は、ifconfig を停止し、AP インタフェースに対して ifconfig unplumb コマンドを実行します。有効なパスを手動で切り替えるには、apconfig(1M) コマンドを使用します。
ボードを交換する手順については、「ボードの取り付け」を参照してください。
ボードにインタフェースを追加する手順については、「記憶装置の追加」を参照してください。
電源が入っているシステムでシステムボードを追加したり、取り外したりするには、いくつかの条件が満たされている必要があります。たとえば、システムボードへの予備電流は周辺装置用電源 (PPS) モジュールが供給しており、この電流供給によりボードの取り付けや削除が安全に実行できるので、PPS モジュールが正しく機能していなければいけません。また、システムボードに電流と冷却用の空気を供給するために、電源・冷却モジュール (PCM) も正しく機能している必要があります。
こうした理由のため、Enterprise x000 や x500 サーバーでシステムボードの追加または取り外しを行うにあたっては、欠陥のある PPS や PCM モジュールをまず交換しておいてください。
ここでは、システムボードの構成または構成解除を終了した後でシステムを再構成する方法について説明します。
現在のバージョンでは、以下の場合に、システム全体の再構成が必要になることがあります。
ボードの追加 - ボードを追加するときは、再構成処理を実行して、そのボードに関係する入出力ボードを構成する必要があります。
ボードの取り外し - ボードを取り外すだけで、そのボードを新しいボードに交換しない場合は、再構成処理を実行して、ディスク装置に対する /dev のリンクを整理します。ただし、この操作は必須ではありません。
ボードの交換 - ボードを取り外して、別のスロットに装着し直すか、異なる入出力装置が搭載されている別のボードと交換する場合は、再構成処理を実行して、そのボードに関係する入出力ボードを構成する必要があります。ただし、同じ入出力装置を持つボードと交換して同じスロットに装着する場合は、再構成処理を実行する必要がないことがあります。交換ボードは必ず元のボードが装着されていたスロットに装着し、/dev 内にある元のリンク名を維持してください。
こうした制限は、今後のバージョンで解消される予定です。
再構成処理は、Solaris の再構成起動処理 (boot -r) と同じです。
drvconfig; devlinks; disks; ports; tapes;
ボードの構成後に再構成処理を実行すると、それまでシステムからは見えなかった装置パス名が /etc/path_to_inst ファイルに書き込まれます。また、同じパス名が /devices 階層にも追加され、それらの装置へのリンクが /dev ディレクトリに作成されます。
ディスクコントローラ番号は、ディスクにアクセスするときに使用される /dev リンク名の一部になります。このため、再構成処理中にディスクコントローラ番号が変更された場合は、/dev リンク名も変更されます。/dev リンク名を使用するファイルシステムテーブルやソフトウェア (Solstice(TM) DiskSuite(TM) など) は、この変更の影響を受けます。/etc/vfstab ファイルを更新するとともに、/dev リンク名の変更のために必要となるその他の管理作業を行ってください。
ボードを構成解除または切り離した後で再構成処理を実行すると、そのボード上のすべてのディスクパーティションに対する /dev リンクが削除されます。その他のボードは、現在の番号付けを維持します。新たに装着されたボード上のディスクコントローラには、現在使用可能な最も小さい番号が disk(1M) によって割り当てられます。
disks(1m) ユーティリティーは、/devices ディレクトリツリーの下にある実際の特殊ディスク装置ファイルを指し示すシンボリックリンクを /dev/dsk および /dev/rdsk ディレクトリ内に作成します。これらのエントリの形式は /dev/dsk/cxtxdxsx です。
cx - ディスクコントローラ番号
tx - ディスクターゲット番号 (通常)
dx - 論理ユニット番号
sx - バーティション番号
ディスクコントローラが搭載されたボードを取り外すと、disks(1m) ユーティリティーは、/dev/dsk および /dev/rdsk 内のエントリを検査する必要があります。これらのエントリには、取り外されたコントローラに接続されていたディスクの一覧があります。disks(1m) ユーティリティーは、切り離された装置に対する参照先が /dev/dsk および /dev/rdsk から削除されていることを検出します。この削除によって、論理コントローラ番号は再び使用することができるようになります。このコントローラ番号の再利用は、システムに追加されたディスクコントローラに予想外のコントローラ番号が割り当てられると、混乱を生じる可能性があります。