N1 Provisioning Server 3.1, Blades Edition 障害追跡

第 2 章 インストールと構成の問題の解決

この章では、N1 Provisioning Server 3.1, Blades Edition 製品のインストールと構成を行う際に発生する可能性のある問題について説明します。 問題は、次のカテゴリに分けて説明します。

このマニュアルでは、各問題に関して、現象と推奨される解決法を説明します。 問題に対する解決策を実施することで N1 Provisioning Server ソフトウェアをインストールできるようになるはずですが、発生した問題がソフトウェアのバグによるものであるかどうかを評価する必要もあります。 ソフトウェアのバグと考えられる問題が発生した場合は、カスタマケアセンターの担当者にご連絡ください。

インストールの問題と解決策

この節では、インストールと初期構成に関する既知の問題と、それらへの対処法について説明します。 インストールの検査に関連する問題の詳細については、「インストールの検査の問題と解決策」を参照してください。

問題:

VLAN 対応のギガビット Ethernet カードが、インストール処理時に見つからない。 インストーラがシステムで VLAN 対応のカードまたは適切なドライバを検出できない場合は、次のメッセージが表示されます。


Could not detect any known gigacards. Check if your driver packages are installed.
対処方法:

この問題には、次の複数の原因が考えられます。

問題:

インストール時に、必要なパッチが一部インストールされていないというメッセージが表示される。

対処方法:

インストールを続行するには、必要なオペレーティングシステムのパッチをインストールする必要があります。 N1 Provisioning Server 3.1, Blades Edition リリースでは、インストールガイドに記載されている必要なパッチを個別にインストールするのではなく、Solaris 8 の推奨パッチクラスタをインストールできます。 必要なパッチのインストールの詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』の「必須パッチのインストール」を参照してください。

問題:

オペレーティングシステムのパッチを N1 Provisioning Server システムに適用した後、named/dhcp が正しく起動しない。 この問題の現象としては、ファーム要求の開始の失敗があります。

対処方法:

適用されたパッチが、BINDDHCP などの、N1 で変更されたシステムツールのいずれかを上書きした可能性があります。 次の解決策を試みます。

問題:

Sun JavaTM System Application Server のインストールに失敗する。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。

対処方法:

この問題の原因として可能性が最も高いのは、N1 Provisioning Server システムでパッチが見つからないことです。 N1 Provisioning Server システムに必要なすべてのパッチをインストールしたことを確認します。

問題:

ブレードシステムシャーシの IP アドレスとスイッチネットワークの構成情報を入力する際に、シャーシが見つからない。 次のエラーメッセージが表示されます。


Cannot ping System Controller IP Value ip-address
対処方法:

この問題は、ネットワークの問題が原因です。 ネットワークの構成を行なっていない場合は、ブレードシステムシャーシのシステムコントローラ (SC) を構成して、N1 Provisioning Server から IP アクセス可能にする必要があります。 詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』 の「コントロールプレーンでの IP アドレスの割り当て」を参照してください。

問題:

シャーシの構成に失敗する。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。


Installation may have failed due to incorrect user input or some other correctable error.
対処方法:

インストーラでシャーシの SC またはスイッチの構成に失敗する場合は、次の項目を確認する必要があります。

問題:

シャーシの検出に失敗する。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。


Installation may have failed due to incorrect user input or some other correctable error.
対処方法:

シェルフコントローラの CLI プロンプトの generation プロパティが none に設定され、プロンプトの最後が > 文字であることを確認します。

問題:

インストール時に、Control Center データベースの作成に失敗する。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。


Installation may have failed due to incorrect user input or some other correctable error.
対処方法:

データベースシステムに Oracle を使用している場合、インストーラが Control Center データベースを作成できるように、インストーラには Oracle データベース管理者のアカウントのユーザー名とパスワードの情報が必要です。 この情報をインストーラに正しく入力していない場合や、デフォルトのシステム/管理者アカウントが存在しない場合は、CC データベースの作成に失敗します。

データベースの作成に失敗する場合は、正しいユーザー名とパスワードの組み合わせが含まれるように Oracle データベースを更新するか、ユーザー名とパスワードの新しい組み合わせを入力してインストーラのパラメータを更新します。

問題:

スイッチでの構成の読み込みの問題を示すエラーが表示される。

対処方法:

稼働レベルが低いシェルフシステムコントローラ (SSC) の代わりとなる新しい SSC で switchsync ツールを実行した場合は、このメッセージは無視しても問題ありません。 switchsync ツールを使用するのは、使用中の誤動作などの問題が生じた SSC を別の SSC に交換する場合です。 ただし、Provisioning Server で (ファームの起動などの) スイッチの構成を変更するのに十分な稼働レベルが存在しない場合、古い SSC の代わりとなる新しい SSC でこのツールを実行する必要はありません。 このツールを実行しようとすると、スイッチでの構成の読み込みで問題が生じたというエラーが表示される場合があります。 このエラーが発生するのは、スイッチ関連の動作が行われていなかったためにスイッチの構成に関してデータベースに十分な情報がないことが原因です。

問題:

インストールが失敗したため、やり直したい。

対処方法:

N1 Provisioning Server ソフトウェアには、アンインストールプログラムが含まれています。 uninstall_PS コマンドを実行して、部分的にインストールされたサーバーをアンインストールします。

インストールの検査の問題と解決策

次の節では、N1 Provisioning Server 3.1, Blades Edition ソフトウェアのインストールの検査中に発生する可能性のある問題について説明します。

問題:

リソースプールサーバーが最終検査テストをパスしない。 インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。 インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。


Installation may have failed due to incorrect user input or some other correctable error.
対処方法:

最終検査テストでは、インストーラは使用可能なすべてのリソースプールサーバーのデバイスのブートを試みます。 このプロセスでは、リソースプールサーバーはイメージプロビジョニングネットワーク上でブートします。 このプロセスには、正しく構成されたデータ層とコントロール層のスイッチだけでなく、Boot Loader Image、DHCP、および BIND の正しい構成も必要です。

リソースプールサーバーが検査テストに失敗した場合は、次の項目を確認する必要があります。

この問題をさらにデバッグするには、イメージサブネットインタフェース上のトラフィックを調べ、コンソールポートでのブートアップ時にリソースプールサーバーのデバイスを監視する必要があります。 これには、snoop ユーティリティを使用します。

問題:

インストール時に、最終検査テスト (pestest) の実行に時間がかかりすぎるため、完了まで待てない。

対処方法:

テストを停止するには、Ctrl + C キーを押すか、終了シグナルを送信します。 テストを停止しても、何も害はありません。 ただし、ファームでの使用に関するブレードの検査は完了していません。 いずれかのブレードに問題があれば、後でファームの起動に失敗します。 ハードウェアの障害など、ブレードに関する問題を検出するには、テストを完了させる必要があります。

テストを停止すると、pestest ツールにより、各ブレードの状態は、pestest を実行する前のブレードの状態に戻されます。 たとえば、ブレードの最初の状態が FREE であるとします。 検査テスト中、ブレードは USED 状態になる可能性があります。 しかし、テストが完了する前にテストを終了させるか取り消すと、pestest コマンドは終了前にブレードの設定を FREE に戻します。

問題:

検査テスト (pestest) が失敗したと考えられるが、障害メッセージが不明であるため、本当に失敗したか確かではない。

対処方法:

検査テストが失敗した場合は、画面には次のようなメッセージが表示されます。


50306: test FAILED: Reason was: - Cannot save state information for 50306:
Blade S6 seems to be faulty
50111: test FAILED: Reason was: - PES 50111 did not become active in 120 seconds

Warning: 1 Blade(s) timed out and did not complete the test.
  Some Blades (1) in your I-Fabric have failed the validation test
  and are not usable by the N1 Provisioning Server. This may probably
  be due to some configuration issues in the I-Fabric. Please diagnose
  and fix the problem before using these Blades.
問題:

検査テスト (pestest) 時に、一部のブレードに関して次のメッセージが表示される。


device-id: test FAILED: Reason was: - Cannot save state information for device-id: 
Blade Sn seems to be faulty
対処方法:

このブレードには障害が発生しているため、直ちに交換する必要があります。 次の手順に従います。

  1. 次のコマンドを入力して、ブレードのプロパティを確認します。


    # /opt/terraspring/sbin/device -l device-id
    

    ここで、device-id はエラーメッセージに表示されているデバイス ID です。

  2. FARM_ID 列を調べます。

    FARM_ID 列にハイフン (-) が含まれていない場合、ブレードはファームの一部です。

    ブレードがファームの一部である場合、次のコマンドを入力して、フォーム内の障害のあるブレードを、同じような属性を持つ別のブレードに交換します。


    # /opt/terraspring/sbin/replacedevice farm-id failed-device-id
    
  3. このブレードのシェルフ ID と IP アドレスを調べるには、console コマンドを使用します。


    # /opt/terraspring/sbin/console failed-device-id
    

    次の例では、s2 がシェルフ ID で、10.5.141.50 が IP アドレスです。


    # console 50102
    
    Console Information
    ====================
    IP address of Terminal-Server(Service Controller): 10.5.141.50
    Port(Blade) ID: s2
    #
  4. シェルフに telnet 接続し、次のコマンドを入力して、ブレードの取り外しの準備ができていることをシェルフコントローラに通知します。


    # replace fru Sn
    

    ここで、Sn は前の手順で調べたシェルフ ID です。

    このコマンドに応答して、取り外されるブレードでは青い LED が点灯します。

  5. ブレードシェルフの前面パネルから、青い LED が点灯している障害のあるブレードを取り外します。

  6. 正常なブレードをブレードシェルフに挿入し、障害のあるブレードを交換します。

  7. 新しいブレードを検出し、データベース内の情報を更新するには、次のコマンドを入力します。


    # /opt/terraspring/sbin/shelfsync
    
  8. ブレードをリセットするには、次のコマンドを入力します。


    # /opt/terraspring/sbin/pestest
    

注 –

障害のあるブレードを交換しない場合は、そのブレードを FAILED としてマークする必要があります。 このようにしないと、障害のあるそのブレードがファームで使用されている場合、後のファームの起動が失敗する可能性があります。 次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id


問題:

検査テスト (pestest) 時に、一部のブレードに対して次のメッセージが表示される。


device-id: test FAILED: Reason was: - PES device-id did not become active in 120 seconds
対処方法:

この一般的なメッセージは、ブレードが許容される時間内にブートできないことを示しています。 一部のブレードのみに障害が発生し、このメッセージが表示された場合は、原因としてはハードウェアの障害、ネットワークの輻輳、またはネットワーク干渉の可能性があります。 /opt/terraspring/sbin/pestest -d device-id コマンドを使用して特定のブレードの再テストを試みます。 再テストを数回行なった後もなお、同じメッセージとともにこれらのブレードに障害が発生した場合は、最も可能性が高い原因は、ハードウェアの障害、またはネットワーク上の別のマシンからのネットワーク干渉です。 ファームの作成に進む前に、適切な手段を講じて問題の追跡と修正を行うか、ファームでこれらのブレードが使用されないようにブレードに FAILED ステータスを設定する必要があります。 ブレードを FAILED としてマークするには、次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id

問題:

検査テスト (pestest) 時に、すべてのブレードに対して次のメッセージが表示される。


###: test FAILED: Reason was:  - PES ### did not become active in 120 seconds
対処方法:

すべてのブレードが検査テストに失敗する場合は、pestest によって一般的なメッセージが出力されます。 このメッセージは、ブレードを使用する前に問題の診断と修正を行うようユーザーに通知します。 この問題の原因と解決策としては、次の 3 つが考えられます。

ファームの起動と移行の問題と解決策

以下の節では、ファームの起動の失敗のデバッグについて説明します。 ファームが正しく要求を完了できない場合、ファームにはエラー状態が設定されます。 エラー状態を判別するには、コマンド /opt/terraspring/sbin/farm -l を実行します。 コマンド出力の最後から 2 番目の列が、ファームのエラー状態を示します。

情報の提供だけを目的として、次の 2 つのエラー状態が設定されています。

ファームの起動時、またはファームがある状態から別の状態に移行する際には、次の問題が発生する可能性があります。 エラー状態にあるファームにファーム要求を再実行するには、farm コマンドに -f オプションを追加し、farm -af farm-id のようにします。 このオプションによりファームのエラーがクリアされ、ファーム要求が処理されます。

問題:

/opt/terraspring/sbin/farm -l コマンドを実行すると、ファーム状態が NEW/NEW_CONFIG/20 と表示される。 この値は、ファームの割り当てが不可能であったことを示しています。

対処方法:

ファームの割り当てに失敗するのは、ファームが特定の種類のリソースを、使用できるよりも多く要求した場合です。 ファームの割り当ての障害になっているリソースを確認するには、コマンド /opt/terraspring/sbin/rsck farm-id を実行します。 rsck により、ファームの割り当てに十分なリソースが使用できることが報告された後で、ファームの起動を再試行します。

問題:

起動のディスパッチ段階で、最終ブートのために、ファーム内のすべてのデバイスの電源がオンになっている。 ファームでディスパッチに失敗した場合は、「Control Center」ウィンドウにエラーメッセージが表示されます。 エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

次の 2 つの解決策のいずれかを実行します。

問題:

ファーム更新の失敗。 ファームで更新に失敗すると、「Control Center」ウィンドウにエラーメッセージが表示されます。 エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

ファーム更新の手順は、起動の手順に非常によく似ています。 ファームはまず ACTIVE 状態から UPDATE 状態に移行し、続いてこの状態から WIRED 状態と DISPATCHED 状態を経て ACTIVE 状態に戻ります。 UPDATE 状態への移行時には、ファームは新しく要求されたリソースの割り当てを試みます。 この移行時の失敗は、割り当て問題のデバッグと同じ方法でデバッグする必要があります。 ファームが UPDATE 状態に到達すると、ファームは WIRED、DISPATCHED、および ACTIVE 状態の順に移行します。 失敗をデバッグするには、前の 2 つの問題を参照してください。

問題:

ファームの STANDBY 状態で、削除したディスクの消去に失敗する。

対処方法:

消去するためのデバイスの設定の手順は、ディスクコピーのためのデバイスの準備と同じです。 この問題をデバッグするには、「ファームの配線の問題と解決策」の 3 番目の問題を参照してください。

問題:

ファームの STANDBY 状態で、デバイスを VLAN に移動できない。

対処方法:

この問題をデバッグするには、「ファームの配線の問題と解決策」の 1 番目の問題を参照してください。

問題:

ファームの STANDBY 状態で、デバイスの電源状態を変更できない。

対処方法:

「ファームの配線の問題と解決策」の 2 番目の問題で説明されているデバッグの方法を参照してください。

問題:

ディスクイメージのスナップショットが失敗する。 スナップショット要求が完了すると、ファームがエラー状態のままになる。

対処方法:

ディスクスナップショットの準備は、サーバーディスクへのディスクコピーの設定と同じように行います。 この問題をデバッグするには、「ファームの配線の問題と解決策」の 3番目の問題の指示に従います。

また、スナップショットプロセスは、スナップショットイメージを作成する前に、イメージサーバー上でスナップショットイメージのディスク容量を予約しようとします。 イメージサーバーで容量が上限近くまで使用されている場合、スナップショットプロセスが失敗する可能性があります。 この場合、サーバーから古いイメージを削除するか、別のストレージデバイスに古いイメージをバックアップします。 古いイメージを削除するには、次のように image コマンドを使用します。 /opt/terraspring/sbin/image -d image-id

問題:

ファーム停止に失敗した。 停止要求が完了すると、ファームがエラー状態のままになる。

対処方法:

ファーム停止の動作は STANDBY へのファームの移行とほぼ同じですが、削除するデバイスに対してスナップショットイメージが作成されないという例外があります。 停止に失敗したファームの障害追跡では、ファームの STANDBY のデバッグの指示に従います。

問題:

デバイスのフェイルオーバーをサポートするための、交換デバイスの割り当てが不可能であった。 「障害のあるデバイスの交換」の要求が完了すると、ファームがエラー状態のままになる。

対処方法:

障害のあるデバイスをバックアップデバイスと交換するには、バックアップデバイスが使用可能である必要があります。 フリープールに使用可能なデバイスが存在しない場合、割り当ての問題により、障害のあるデバイスの交換は失敗します。 交換デバイスが使用可能であることを確認するには、コマンド /opt/terraspring/sbin/device -LFr device-id を使用します。

問題:

デバイスのフェイルオーバーをサポートするための、交換デバイスのプロビジョニングが不可能であった。 「障害のあるデバイスの交換」の要求が完了すると、ファームがエラー状態のままになる。

対処方法:

交換デバイスのプロビジョニングは、最初のファームの起動とファームの更新時での、新しく割り当てられるデバイスのプロビジョニングと同じように行われます。 これらの問題をデバッグするには、「ファームの配線の問題と解決策」を参照してください。

問題:

コマンド /opt/terraspring/sbin/request -lf farm-id を実行する際に、要求はキューに入ったと表示されるが、処理されない。

対処方法:

次の項目を確認します。

問題:

障害のあるブレードが含まれるファームを停止できない。 ファーム停止とデバイス交換の両方の要求が失敗する。

対処方法:

コマンド device -sB blade-id を入力して、障害のあるブレードを FAILED としてマークします。 続いて、停止要求を再実行します。

ファームの配線の問題と解決策

ファームの起動時には、さまざまなチェックが行われます。 /opt/terraspring/sbin/farm -l コマンドを実行すると、ファームの状態が NEW/ALLOCATED/30 と表示される場合があります。 この値は、配線の段階でファームに障害が生じたことを示しています。 この節では、ファームの配線の障害に対して、考えられる原因と解決策を説明します。

問題:

VLAN へのデバイスの移動に失敗する。 配線の段階におけるイメージ VLAN やファーム VLAN へのデバイスの移動の失敗は、複数の形態で発生します。

対処方法:

それぞれの失敗には、固有の解決策があります。

問題:

ブレードの電源状態を変更できない。

対処方法:

この問題には、いくつかの原因と解決策が考えられます。

問題:

ディスクコピーに失敗する。 ディスクコピーに失敗した場合、「Control Center」ウインドウにはエラーメッセージが表示されます。 エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

イメージのコピーを行うためにリソースプールサーバーを準備するプロセスは、インストール時の最終実験検査テストで実行されるプロセスに似ています。 300 秒以内に稼働状態にならなかったデバイスの障害追跡を行うには、「インストールの検査の問題と解決策」を参照してください。

リソースプールサーバーへのコピーが要求されたイメージが、存在しないか READY 状態ではない場合も、イメージのコピーに失敗する可能性があります。 リソースプールサーバーにコピーしようとするイメージが READY 状態であることを確認するには、コマンド /opt/terraspring/sbin/image -l image-id を使用します。 実行する準備ができているものとしてイメージをマークするには、コマンド /opt/terraspring/sbin/imagesync --nosync image-id を使用します。

ディスクコピーのプロセスの開始に成功し、後に割り込みにより失敗した場合は、環境内のネットワークの問題を解決しなければならない可能性があります。