次の節では、N1 Provisioning Server 3.1, Blades Edition ソフトウェアのインストールの検査中に発生する可能性のある問題について説明します。
問題:リソースプールサーバーが最終検査テストをパスしない。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。
Installation may have failed due to incorrect user input or some other correctable error. |
最終検査テストでは、インストーラは使用可能なすべてのリソースプールサーバーのデバイスのブートを試みます。 このプロセスでは、リソースプールサーバーはイメージプロビジョニングネットワーク上でブートします。 このプロセスには、正しく構成されたデータ層とコントロール層のスイッチだけでなく、Boot Loader Image、DHCP、および BIND の正しい構成も必要です。
リソースプールサーバーが検査テストに失敗した場合は、次の項目を確認する必要があります。
シャーシスイッチ上の SNMP public コミュニティー文字列が、管理者のパスワードと一致することを確認します。
VLAN 8 が、全シャーシスイッチと、データ層のスイッチで定義されていることを確認します。 また、すべての中継ポートで許可されている VLAN のリストに VLAN 8 を追加します。
Boot Loader Image が正しく設定されていることを確認します。
次のコマンドを使用して、Provisioning Server のイメージ VLANでインタフェースが構成されていることを確認します。(Syskonnect を使用している場合は skge800、GigaSwift を使用している場合は ce8000)。
/sbin/ifconfig -a |
次のコマンドを使用して、Provisioning Server 上のイメージサブネットインタフェースでトラフィックが IPF によりブロックされていないことを確認します。
/usr/sbin/ipfstat -io |
この問題をさらにデバッグするには、イメージサブネットインタフェース上のトラフィックを調べ、コンソールポートでのブートアップ時にリソースプールサーバーのデバイスを監視する必要があります。 これには、snoop ユーティリティを使用します。
問題:インストール時に、最終検査テスト (pestest) の実行に時間がかかりすぎるため、完了まで待てない。
対処方法:テストを停止するには、Ctrl + C キーを押すか、終了シグナルを送信します。 テストを停止しても、何も害はありません。 ただし、ファームでの使用に関するブレードの検査は完了していません。 いずれかのブレードに問題があれば、後でファームの起動に失敗します。 ハードウェアの障害など、ブレードに関する問題を検出するには、テストを完了させる必要があります。
テストを停止すると、pestest ツールにより、各ブレードの状態は、pestest を実行する前のブレードの状態に戻されます。 たとえば、ブレードの最初の状態が FREE であるとします。 検査テスト中、ブレードは USED 状態になる可能性があります。 しかし、テストが完了する前にテストを終了させるか取り消すと、pestest コマンドは終了前にブレードの設定を FREE に戻します。
問題:検査テスト (pestest) が失敗したと考えられるが、障害メッセージが不明であるため、本当に失敗したか確かではない。
対処方法:検査テストが失敗した場合は、画面には次のようなメッセージが表示されます。
50306: test FAILED: Reason was: - Cannot save state information for 50306: Blade S6 seems to be faulty 50111: test FAILED: Reason was: - PES 50111 did not become active in 120 seconds Warning: 1 Blade(s) timed out and did not complete the test. Some Blades (1) in your I-Fabric have failed the validation test and are not usable by the N1 Provisioning Server. This may probably be due to some configuration issues in the I-Fabric. Please diagnose and fix the problem before using these Blades. |
検査テスト (pestest) 時に、一部のブレードに関して次のメッセージが表示される。
device-id: test FAILED: Reason was: - Cannot save state information for device-id: Blade Sn seems to be faulty |
このブレードには障害が発生しているため、直ちに交換する必要があります。 次の手順に従います。
次のコマンドを入力して、ブレードのプロパティを確認します。
# /opt/terraspring/sbin/device -l device-id |
ここで、device-id はエラーメッセージに表示されているデバイス ID です。
FARM_ID 列を調べます。
FARM_ID 列にハイフン (-) が含まれていない場合、ブレードはファームの一部です。
ブレードがファームの一部である場合、次のコマンドを入力して、フォーム内の障害のあるブレードを、同じような属性を持つ別のブレードに交換します。
# /opt/terraspring/sbin/replacedevice farm-id failed-device-id |
このブレードのシェルフ ID と IP アドレスを調べるには、console コマンドを使用します。
# /opt/terraspring/sbin/console failed-device-id |
次の例では、s2 がシェルフ ID で、10.5.141.50 が IP アドレスです。
# console 50102 Console Information ==================== IP address of Terminal-Server(Service Controller): 10.5.141.50 Port(Blade) ID: s2 # |
シェルフに telnet 接続し、次のコマンドを入力して、ブレードの取り外しの準備ができていることをシェルフコントローラに通知します。
# replace fru Sn |
ここで、Sn は前の手順で調べたシェルフ ID です。
このコマンドに応答して、取り外されるブレードでは青い LED が点灯します。
ブレードシェルフの前面パネルから、青い LED が点灯している障害のあるブレードを取り外します。
正常なブレードをブレードシェルフに挿入し、障害のあるブレードを交換します。
新しいブレードを検出し、データベース内の情報を更新するには、次のコマンドを入力します。
# /opt/terraspring/sbin/shelfsync |
ブレードをリセットするには、次のコマンドを入力します。
# /opt/terraspring/sbin/pestest |
障害のあるブレードを交換しない場合は、そのブレードを FAILED としてマークする必要があります。 このようにしないと、障害のあるそのブレードがファームで使用されている場合、後のファームの起動が失敗する可能性があります。 次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id
検査テスト (pestest) 時に、一部のブレードに対して次のメッセージが表示される。
device-id: test FAILED: Reason was: - PES device-id did not become active in 120 seconds |
この一般的なメッセージは、ブレードが許容される時間内にブートできないことを示しています。 一部のブレードのみに障害が発生し、このメッセージが表示された場合は、原因としてはハードウェアの障害、ネットワークの輻輳、またはネットワーク干渉の可能性があります。 /opt/terraspring/sbin/pestest -d device-id コマンドを使用して特定のブレードの再テストを試みます。 再テストを数回行なった後もなお、同じメッセージとともにこれらのブレードに障害が発生した場合は、最も可能性が高い原因は、ハードウェアの障害、またはネットワーク上の別のマシンからのネットワーク干渉です。 ファームの作成に進む前に、適切な手段を講じて問題の追跡と修正を行うか、ファームでこれらのブレードが使用されないようにブレードに FAILED ステータスを設定する必要があります。 ブレードを FAILED としてマークするには、次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id
問題:検査テスト (pestest) 時に、すべてのブレードに対して次のメッセージが表示される。
###: test FAILED: Reason was: - PES ### did not become active in 120 seconds |
すべてのブレードが検査テストに失敗する場合は、pestest によって一般的なメッセージが出力されます。 このメッセージは、ブレードを使用する前に問題の診断と修正を行うようユーザーに通知します。 この問題の原因と解決策としては、次の 3 つが考えられます。
データプレーン上のネットワークスイッチが正しく構成されていない。 次の手順に従って、構成を確認します。
データプレーンスイッチをブレードシェルフに接続するすべてのスイッチポートが「trunk」に設定されていることを確認します。
イメージ VLAN が VLAN 8 上に作成されていることを確認します。
N1 Provisioning Server マシンをデータプレーンスイッチに接続するスイッチポートが VLAN 8 に設定されていることを確認します。
スイッチの構成の詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』の第 3 章「N1 Provisioning Server システムとネットワーク準備」を参照してください。
ネットワークの問題により、ブレードが N1 Provisioning Server マシンと通信できない。 この問題を解決するには、同一ネットワーク上に DHCP サーバーとして構成されているサーバーが他に存在しないことを確認します。 別の DHCP サーバーが存在すると、ブレードに NACK を送信するため、ブレードが N1 Provisioning Server マシンから IP アドレスを正しく取得できなくなります。
ハードウェアの接続がゆるんでいるなど、完全ではない。 すべてのケーブルが正しく接続されていることを確認します。