N1 Provisioning Server 3.1, Blades Edition 障害追跡

インストールの検査の問題と解決策

次の節では、N1 Provisioning Server 3.1, Blades Edition ソフトウェアのインストールの検査中に発生する可能性のある問題について説明します。

問題:

リソースプールサーバーが最終検査テストをパスしない。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。


Installation may have failed due to incorrect user input or some other correctable error.
対処方法:

最終検査テストでは、インストーラは使用可能なすべてのリソースプールサーバーのデバイスのブートを試みます。 このプロセスでは、リソースプールサーバーはイメージプロビジョニングネットワーク上でブートします。 このプロセスには、正しく構成されたデータ層とコントロール層のスイッチだけでなく、Boot Loader Image、DHCP、および BIND の正しい構成も必要です。

リソースプールサーバーが検査テストに失敗した場合は、次の項目を確認する必要があります。

この問題をさらにデバッグするには、イメージサブネットインタフェース上のトラフィックを調べ、コンソールポートでのブートアップ時にリソースプールサーバーのデバイスを監視する必要があります。 これには、snoop ユーティリティを使用します。

問題:

インストール時に、最終検査テスト (pestest) の実行に時間がかかりすぎるため、完了まで待てない。

対処方法:

テストを停止するには、Ctrl + C キーを押すか、終了シグナルを送信します。 テストを停止しても、何も害はありません。 ただし、ファームでの使用に関するブレードの検査は完了していません。 いずれかのブレードに問題があれば、後でファームの起動に失敗します。 ハードウェアの障害など、ブレードに関する問題を検出するには、テストを完了させる必要があります。

テストを停止すると、pestest ツールにより、各ブレードの状態は、pestest を実行する前のブレードの状態に戻されます。 たとえば、ブレードの最初の状態が FREE であるとします。 検査テスト中、ブレードは USED 状態になる可能性があります。 しかし、テストが完了する前にテストを終了させるか取り消すと、pestest コマンドは終了前にブレードの設定を FREE に戻します。

問題:

検査テスト (pestest) が失敗したと考えられるが、障害メッセージが不明であるため、本当に失敗したか確かではない。

対処方法:

検査テストが失敗した場合は、画面には次のようなメッセージが表示されます。


50306: test FAILED: Reason was: - Cannot save state information for 50306:
Blade S6 seems to be faulty
50111: test FAILED: Reason was: - PES 50111 did not become active in 120 seconds

Warning: 1 Blade(s) timed out and did not complete the test.
  Some Blades (1) in your I-Fabric have failed the validation test
  and are not usable by the N1 Provisioning Server. This may probably
  be due to some configuration issues in the I-Fabric. Please diagnose
  and fix the problem before using these Blades.
問題:

検査テスト (pestest) 時に、一部のブレードに関して次のメッセージが表示される。


device-id: test FAILED: Reason was: - Cannot save state information for device-id: 
Blade Sn seems to be faulty
対処方法:

このブレードには障害が発生しているため、直ちに交換する必要があります。 次の手順に従います。

  1. 次のコマンドを入力して、ブレードのプロパティを確認します。


    # /opt/terraspring/sbin/device -l device-id
    

    ここで、device-id はエラーメッセージに表示されているデバイス ID です。

  2. FARM_ID 列を調べます。

    FARM_ID 列にハイフン (-) が含まれていない場合、ブレードはファームの一部です。

    ブレードがファームの一部である場合、次のコマンドを入力して、フォーム内の障害のあるブレードを、同じような属性を持つ別のブレードに交換します。


    # /opt/terraspring/sbin/replacedevice farm-id failed-device-id
    
  3. このブレードのシェルフ ID と IP アドレスを調べるには、console コマンドを使用します。


    # /opt/terraspring/sbin/console failed-device-id
    

    次の例では、s2 がシェルフ ID で、10.5.141.50 が IP アドレスです。


    # console 50102
    
    Console Information
    ====================
    IP address of Terminal-Server(Service Controller): 10.5.141.50
    Port(Blade) ID: s2
    #
  4. シェルフに telnet 接続し、次のコマンドを入力して、ブレードの取り外しの準備ができていることをシェルフコントローラに通知します。


    # replace fru Sn
    

    ここで、Sn は前の手順で調べたシェルフ ID です。

    このコマンドに応答して、取り外されるブレードでは青い LED が点灯します。

  5. ブレードシェルフの前面パネルから、青い LED が点灯している障害のあるブレードを取り外します。

  6. 正常なブレードをブレードシェルフに挿入し、障害のあるブレードを交換します。

  7. 新しいブレードを検出し、データベース内の情報を更新するには、次のコマンドを入力します。


    # /opt/terraspring/sbin/shelfsync
    
  8. ブレードをリセットするには、次のコマンドを入力します。


    # /opt/terraspring/sbin/pestest
    

注 –

障害のあるブレードを交換しない場合は、そのブレードを FAILED としてマークする必要があります。 このようにしないと、障害のあるそのブレードがファームで使用されている場合、後のファームの起動が失敗する可能性があります。 次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id


問題:

検査テスト (pestest) 時に、一部のブレードに対して次のメッセージが表示される。


device-id: test FAILED: Reason was: - PES device-id did not become active in 120 seconds
対処方法:

この一般的なメッセージは、ブレードが許容される時間内にブートできないことを示しています。 一部のブレードのみに障害が発生し、このメッセージが表示された場合は、原因としてはハードウェアの障害、ネットワークの輻輳、またはネットワーク干渉の可能性があります。 /opt/terraspring/sbin/pestest -d device-id コマンドを使用して特定のブレードの再テストを試みます。 再テストを数回行なった後もなお、同じメッセージとともにこれらのブレードに障害が発生した場合は、最も可能性が高い原因は、ハードウェアの障害、またはネットワーク上の別のマシンからのネットワーク干渉です。 ファームの作成に進む前に、適切な手段を講じて問題の追跡と修正を行うか、ファームでこれらのブレードが使用されないようにブレードに FAILED ステータスを設定する必要があります。 ブレードを FAILED としてマークするには、次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id

問題:

検査テスト (pestest) 時に、すべてのブレードに対して次のメッセージが表示される。


###: test FAILED: Reason was:  - PES ### did not become active in 120 seconds
対処方法:

すべてのブレードが検査テストに失敗する場合は、pestest によって一般的なメッセージが出力されます。 このメッセージは、ブレードを使用する前に問題の診断と修正を行うようユーザーに通知します。 この問題の原因と解決策としては、次の 3 つが考えられます。