N1 Provisioning Server 3.1, Blades Edition 障害追跡

Previous: 第 1 章一般的な障害追跡のガイドラインと処置

第 2 章インストールと構成の問題の解決

この章では、N1 Provisioning Server 3.1, Blades Edition 製品のインストールと構成を行う際に発生する可能性のある問題について説明します。問題は、次のカテゴリに分けて説明します。

このマニュアルでは、各問題に関して、現象と推奨される解決法を説明します。問題に対する解決策を実施することで N1 Provisioning Server ソフトウェアをインストールできるようになるはずですが、発生した問題がソフトウェアのバグによるものであるかどうかを評価する必要もあります。ソフトウェアのバグと考えられる問題が発生した場合は、カスタマケアセンターの担当者にご連絡ください。

インストールの問題と解決策

この節では、インストールと初期構成に関する既知の問題と、それらへの対処法について説明します。インストールの検査に関連する問題の詳細については、「インストールの検査の問題と解決策」を参照してください。

問題:

VLAN 対応のギガビット Ethernet カードが、インストール処理時に見つからない。インストーラがシステムで VLAN 対応のカードまたは適切なドライバを検出できない場合は、次のメッセージが表示されます。

Could not detect any known gigacards. Check if your driver packages are installed.

対処方法:

この問題には、次の複数の原因が考えられます。

サポート対象の VLAN 対応ギガビット Ethernet カードが、N1 Provisioning Server システムにインストールされていない。 N1 Provisioning Server ソフトウェアでは、次の 2 つのサポート対象ネットワークカードのいずれかが、指定のドライバとともにインストールされている必要があります。
- SysKonnect SK98xx: 64 ビットドライババージョン 6.02
- GigaSwift: Solaris 8 ドライバにはパッチ 112119-04 が必要
N1 Provisioning Server にサポート対象のバージョンのドライバがインストールされていることを確認します。
カード用のドライバが正しくインストールされていない可能性がある。正しいバージョンのネットワークカード用ドライバがインストールされていることを確認します。また、VLAN 機能を有効にするために、GigaSwift カード用のドライバパッケージがインストールされていることも確認します。
カードがインスタンス 0 としてインストールされていない。N1 Provisioning Server ソフトウェアでは、VLAN 対応のギガビット Ethernet カードはインスタンス 0 としてインストールされていることが想定されています。この設定を確認するには、/etc/path_to_inst ファイルで ce または skge を確認します。ネットワークカードに別のインスタンス番号が割り当てられている場合は、サーバーを再構成する必要があります。別のインスタンス番号を割り当てるためにサーバーを再構成するには、次の手順に従います。
1. 同一デバイスに一致するすべてのインスタンスを特定します。
  "/pci@8,700000/pci@3/network@0" 0 "ce" grep "/pci@8,700000/pci@3/network@0" /etc/path_to_inst
2. 上記の手順で特定されたすべてのエントリを、/etc/path_to_inst ファイルから削除します。
3. 次のコマンドを使用して、N1 Provisioning Server システムをリブートします。
  # reboot -- -r
4. リブート後、ce または skge インスタンスが 0 に設定されていることを確認します。

問題:

インストール時に、必要なパッチが一部インストールされていないというメッセージが表示される。

対処方法:

インストールを続行するには、必要なオペレーティングシステムのパッチをインストールする必要があります。 N1 Provisioning Server 3.1, Blades Edition リリースでは、インストールガイドに記載されている必要なパッチを個別にインストールするのではなく、Solaris 8 の推奨パッチクラスタをインストールできます。必要なパッチのインストールの詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』の「必須パッチのインストール」を参照してください。

問題:

オペレーティングシステムのパッチを N1 Provisioning Server システムに適用した後、named/dhcp が正しく起動しない。この問題の現象としては、ファーム要求の開始の失敗があります。

対処方法:

適用されたパッチが、BIND や DHCP などの、N1 で変更されたシステムツールのいずれかを上書きした可能性があります。次の解決策を試みます。

ツールの N1 で変更されたバージョンを上書きしたパッチを特定します。現時点では、N1 では BIND および DHCP 関連のファイルのみが置き換えられます。これらのシステムツールに適用されたパッチのリストを特定したら、patchrm ユーティリティを使用してこれらのパッチを削除します。
次の 2 つのパッケージを再インストールします。
- TSPRdns
- TSPRdhcp
パッケージファイルは、製品のメディアの Solaris/Terraspring/3.1/Product パスにあります。

問題:

Sun Java^TM System Application Server のインストールに失敗する。インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。

対処方法:

この問題の原因として可能性が最も高いのは、N1 Provisioning Server システムでパッチが見つからないことです。 N1 Provisioning Server システムに必要なすべてのパッチをインストールしたことを確認します。

問題:

ブレードシステムシャーシの IP アドレスとスイッチネットワークの構成情報を入力する際に、シャーシが見つからない。次のエラーメッセージが表示されます。

Cannot ping System Controller IP Value ip-address

対処方法:

この問題は、ネットワークの問題が原因です。ネットワークの構成を行なっていない場合は、ブレードシステムシャーシのシステムコントローラ (SC) を構成して、N1 Provisioning Server から IP アクセス可能にする必要があります。詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』の「コントロールプレーンでの IP アドレスの割り当て」を参照してください。

問題:

シャーシの構成に失敗する。インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。

Installation may have failed due to incorrect user input or some other correctable error.

対処方法:

インストーラでシャーシの SC またはスイッチの構成に失敗する場合は、次の項目を確認する必要があります。

シャーシの SC が正しく応答し、ハング状態ではないことを確認します。 SC のプロンプトから showplatform -v を実行し、大幅に遅れる (たとえば 1 分を超える) ことなく出力が画面に表示されることを確認します。
インストーラに入力されているログインパラメータが、シャーシとスイッチで構成されているユーザー名およびパスワードと一致することを確認します。
インストーラに入力されている IP アドレスを使用して、シャーシの SC がネットワークアクセス可能であることを確認します。

問題:

シャーシの検出に失敗する。インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。

Installation may have failed due to incorrect user input or some other correctable error.

対処方法:

シェルフコントローラの CLI プロンプトの generation プロパティが none に設定され、プロンプトの最後が > 文字であることを確認します。

問題:

インストール時に、Control Center データベースの作成に失敗する。インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。

Installation may have failed due to incorrect user input or some other correctable error.

対処方法:

データベースシステムに Oracle を使用している場合、インストーラが Control Center データベースを作成できるように、インストーラには Oracle データベース管理者のアカウントのユーザー名とパスワードの情報が必要です。この情報をインストーラに正しく入力していない場合や、デフォルトのシステム/管理者アカウントが存在しない場合は、CC データベースの作成に失敗します。

データベースの作成に失敗する場合は、正しいユーザー名とパスワードの組み合わせが含まれるように Oracle データベースを更新するか、ユーザー名とパスワードの新しい組み合わせを入力してインストーラのパラメータを更新します。

問題:

スイッチでの構成の読み込みの問題を示すエラーが表示される。

対処方法:

稼働レベルが低いシェルフシステムコントローラ (SSC) の代わりとなる新しい SSC で switchsync ツールを実行した場合は、このメッセージは無視しても問題ありません。 switchsync ツールを使用するのは、使用中の誤動作などの問題が生じた SSC を別の SSC に交換する場合です。ただし、Provisioning Server で (ファームの起動などの) スイッチの構成を変更するのに十分な稼働レベルが存在しない場合、古い SSC の代わりとなる新しい SSC でこのツールを実行する必要はありません。このツールを実行しようとすると、スイッチでの構成の読み込みで問題が生じたというエラーが表示される場合があります。このエラーが発生するのは、スイッチ関連の動作が行われていなかったためにスイッチの構成に関してデータベースに十分な情報がないことが原因です。

問題:

インストールが失敗したため、やり直したい。

対処方法:

N1 Provisioning Server ソフトウェアには、アンインストールプログラムが含まれています。 uninstall_PS コマンドを実行して、部分的にインストールされたサーバーをアンインストールします。

インストールの検査の問題と解決策

次の節では、N1 Provisioning Server 3.1, Blades Edition ソフトウェアのインストールの検査中に発生する可能性のある問題について説明します。

問題:

リソースプールサーバーが最終検査テストをパスしない。インストールのログファイル (/var/opt/terraspring/install/run/install.log) には、固有のエラーメッセージが含まれています。インストーラでは、ユーザーが選択可能な一連のオプションとともに、次のメッセージが表示されます。

Installation may have failed due to incorrect user input or some other correctable error.

対処方法:

最終検査テストでは、インストーラは使用可能なすべてのリソースプールサーバーのデバイスのブートを試みます。このプロセスでは、リソースプールサーバーはイメージプロビジョニングネットワーク上でブートします。このプロセスには、正しく構成されたデータ層とコントロール層のスイッチだけでなく、Boot Loader Image、DHCP、および BIND の正しい構成も必要です。

リソースプールサーバーが検査テストに失敗した場合は、次の項目を確認する必要があります。

シャーシスイッチ上の SNMP public コミュニティー文字列が、管理者のパスワードと一致することを確認します。
VLAN 8 が、全シャーシスイッチと、データ層のスイッチで定義されていることを確認します。また、すべての中継ポートで許可されている VLAN のリストに VLAN 8 を追加します。
Boot Loader Image が正しく設定されていることを確認します。
次のコマンドを使用して、Provisioning Server のイメージ VLANでインタフェースが構成されていることを確認します。(Syskonnect を使用している場合は skge800、GigaSwift を使用している場合は ce8000)。
/sbin/ifconfig -a
次のコマンドを使用して、Provisioning Server 上のイメージサブネットインタフェースでトラフィックが IPF によりブロックされていないことを確認します。
/usr/sbin/ipfstat -io

この問題をさらにデバッグするには、イメージサブネットインタフェース上のトラフィックを調べ、コンソールポートでのブートアップ時にリソースプールサーバーのデバイスを監視する必要があります。これには、snoop ユーティリティを使用します。

問題:

インストール時に、最終検査テスト (pestest) の実行に時間がかかりすぎるため、完了まで待てない。

対処方法:

テストを停止するには、Ctrl + C キーを押すか、終了シグナルを送信します。テストを停止しても、何も害はありません。ただし、ファームでの使用に関するブレードの検査は完了していません。いずれかのブレードに問題があれば、後でファームの起動に失敗します。ハードウェアの障害など、ブレードに関する問題を検出するには、テストを完了させる必要があります。

テストを停止すると、pestest ツールにより、各ブレードの状態は、pestest を実行する前のブレードの状態に戻されます。たとえば、ブレードの最初の状態が FREE であるとします。検査テスト中、ブレードは USED 状態になる可能性があります。しかし、テストが完了する前にテストを終了させるか取り消すと、pestest コマンドは終了前にブレードの設定を FREE に戻します。

問題:

検査テスト (pestest) が失敗したと考えられるが、障害メッセージが不明であるため、本当に失敗したか確かではない。

対処方法:

検査テストが失敗した場合は、画面には次のようなメッセージが表示されます。

50306: test FAILED: Reason was: - Cannot save state information for 50306:
Blade S6 seems to be faulty
50111: test FAILED: Reason was: - PES 50111 did not become active in 120 seconds

Warning: 1 Blade(s) timed out and did not complete the test.
  Some Blades (1) in your I-Fabric have failed the validation test
  and are not usable by the N1 Provisioning Server. This may probably
  be due to some configuration issues in the I-Fabric. Please diagnose
  and fix the problem before using these Blades.

問題:

検査テスト (pestest) 時に、一部のブレードに関して次のメッセージが表示される。

device-id: test FAILED: Reason was: - Cannot save state information for device-id: 
Blade Sn seems to be faulty

対処方法:

このブレードには障害が発生しているため、直ちに交換する必要があります。次の手順に従います。

次のコマンドを入力して、ブレードのプロパティを確認します。
# /opt/terraspring/sbin/device -l device-id
ここで、device-id はエラーメッセージに表示されているデバイス ID です。
FARM_ID 列を調べます。

FARM_ID 列にハイフン (-) が含まれていない場合、ブレードはファームの一部です。

ブレードがファームの一部である場合、次のコマンドを入力して、フォーム内の障害のあるブレードを、同じような属性を持つ別のブレードに交換します。
# /opt/terraspring/sbin/replacedevice farm-id failed-device-id
このブレードのシェルフ ID と IP アドレスを調べるには、console コマンドを使用します。
# /opt/terraspring/sbin/console failed-device-id
次の例では、s2 がシェルフ ID で、10.5.141.50 が IP アドレスです。
# console 50102 Console Information ==================== IP address of Terminal-Server(Service Controller): 10.5.141.50 Port(Blade) ID: s2 #
シェルフに telnet 接続し、次のコマンドを入力して、ブレードの取り外しの準備ができていることをシェルフコントローラに通知します。
# replace fru Sn
ここで、Sn は前の手順で調べたシェルフ ID です。

このコマンドに応答して、取り外されるブレードでは青い LED が点灯します。
ブレードシェルフの前面パネルから、青い LED が点灯している障害のあるブレードを取り外します。
正常なブレードをブレードシェルフに挿入し、障害のあるブレードを交換します。
新しいブレードを検出し、データベース内の情報を更新するには、次のコマンドを入力します。
# /opt/terraspring/sbin/shelfsync
ブレードをリセットするには、次のコマンドを入力します。
# /opt/terraspring/sbin/pestest

注 –

障害のあるブレードを交換しない場合は、そのブレードを FAILED としてマークする必要があります。このようにしないと、障害のあるそのブレードがファームで使用されている場合、後のファームの起動が失敗する可能性があります。次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id

問題:

検査テスト (pestest) 時に、一部のブレードに対して次のメッセージが表示される。

device-id: test FAILED: Reason was: - PES device-id did not become active in 120 seconds

対処方法:

この一般的なメッセージは、ブレードが許容される時間内にブートできないことを示しています。一部のブレードのみに障害が発生し、このメッセージが表示された場合は、原因としてはハードウェアの障害、ネットワークの輻輳、またはネットワーク干渉の可能性があります。 /opt/terraspring/sbin/pestest -d device-id コマンドを使用して特定のブレードの再テストを試みます。再テストを数回行なった後もなお、同じメッセージとともにこれらのブレードに障害が発生した場合は、最も可能性が高い原因は、ハードウェアの障害、またはネットワーク上の別のマシンからのネットワーク干渉です。ファームの作成に進む前に、適切な手段を講じて問題の追跡と修正を行うか、ファームでこれらのブレードが使用されないようにブレードに FAILED ステータスを設定する必要があります。ブレードを FAILED としてマークするには、次のコマンドを使用します。 /opt/terraspring/sbin/device -sB device-id

問題:

検査テスト (pestest) 時に、すべてのブレードに対して次のメッセージが表示される。

###: test FAILED: Reason was:  - PES ### did not become active in 120 seconds

対処方法:

すべてのブレードが検査テストに失敗する場合は、pestest によって一般的なメッセージが出力されます。このメッセージは、ブレードを使用する前に問題の診断と修正を行うようユーザーに通知します。この問題の原因と解決策としては、次の 3 つが考えられます。

データプレーン上のネットワークスイッチが正しく構成されていない。次の手順に従って、構成を確認します。
1. データプレーンスイッチをブレードシェルフに接続するすべてのスイッチポートが「trunk」に設定されていることを確認します。
2. イメージ VLAN が VLAN 8 上に作成されていることを確認します。
3. N1 Provisioning Server マシンをデータプレーンスイッチに接続するスイッチポートが VLAN 8 に設定されていることを確認します。
スイッチの構成の詳細については、『N1 Provisioning Server 3.1, Blades Edition インストールガイド』の第 3 章「N1 Provisioning Server システムとネットワーク準備」を参照してください。
ネットワークの問題により、ブレードが N1 Provisioning Server マシンと通信できない。この問題を解決するには、同一ネットワーク上に DHCP サーバーとして構成されているサーバーが他に存在しないことを確認します。別の DHCP サーバーが存在すると、ブレードに NACK を送信するため、ブレードが N1 Provisioning Server マシンから IP アドレスを正しく取得できなくなります。
ハードウェアの接続がゆるんでいるなど、完全ではない。すべてのケーブルが正しく接続されていることを確認します。

ファームの起動と移行の問題と解決策

以下の節では、ファームの起動の失敗のデバッグについて説明します。ファームが正しく要求を完了できない場合、ファームにはエラー状態が設定されます。エラー状態を判別するには、コマンド /opt/terraspring/sbin/farm -l を実行します。コマンド出力の最後から 2 番目の列が、ファームのエラー状態を示します。

情報の提供だけを目的として、次の 2 つのエラー状態が設定されています。

エラー状態 0 は、ファームが正常であり、新しい要求を受け入れる準備ができていることを示します。
エラー状態 1000 は、ファームが移行状態にあることを示します。このファームに関してファーム要求が現在処理中で、ファームがある状態から別の状態に移行しているところです。

ファームの起動時、またはファームがある状態から別の状態に移行する際には、次の問題が発生する可能性があります。エラー状態にあるファームにファーム要求を再実行するには、farm コマンドに -f オプションを追加し、farm -af farm-id のようにします。このオプションによりファームのエラーがクリアされ、ファーム要求が処理されます。

問題:

/opt/terraspring/sbin/farm -l コマンドを実行すると、ファーム状態が NEW/NEW_CONFIG/20 と表示される。この値は、ファームの割り当てが不可能であったことを示しています。

対処方法:

ファームの割り当てに失敗するのは、ファームが特定の種類のリソースを、使用できるよりも多く要求した場合です。ファームの割り当ての障害になっているリソースを確認するには、コマンド /opt/terraspring/sbin/rsck farm-id を実行します。 rsck により、ファームの割り当てに十分なリソースが使用できることが報告された後で、ファームの起動を再試行します。

問題:

起動のディスパッチ段階で、最終ブートのために、ファーム内のすべてのデバイスの電源がオンになっている。ファームでディスパッチに失敗した場合は、「Control Center」ウィンドウにエラーメッセージが表示されます。エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

次の 2 つの解決策のいずれかを実行します。

タイムアウト期間が終了する前に、デバイスが監視エージェントに対して報告を行わなかった場合。

リソースプールサーバーが正しくブートしていない可能性があります。コンソール接続で、リソースプールサーバーのブートを監視します。デバイスが正しくブートしない場合は、ネットワークの問題を重点的に調べる必要があります。デバイスがブートに成功しても、そのデバイスがブートしたことを監視エージェントが認識できない場合は、リソースプールサーバーの監視エージェントのプロセスが正しく起動したかを確認します。リソースプールサーバーでコマンド /usr/ucb/ps auxwww | grep java を実行します。バックグラウンドで監視エージェントの Java プロセスが稼働中であることが確認できるはずです。監視エージェントのプロセスをデバッグするには、/opt/terraspring/log/tspr.log のログファイルを調べます。
デバイスの電源をオンにしようとする際に問題が存在する可能性がある場合。「ファームの配線の問題と解決策」の 2 番目の問題で説明されているデバッグの方法を参照してください。

問題:

ファーム更新の失敗。ファームで更新に失敗すると、「Control Center」ウィンドウにエラーメッセージが表示されます。エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

ファーム更新の手順は、起動の手順に非常によく似ています。ファームはまず ACTIVE 状態から UPDATE 状態に移行し、続いてこの状態から WIRED 状態と DISPATCHED 状態を経て ACTIVE 状態に戻ります。 UPDATE 状態への移行時には、ファームは新しく要求されたリソースの割り当てを試みます。この移行時の失敗は、割り当て問題のデバッグと同じ方法でデバッグする必要があります。ファームが UPDATE 状態に到達すると、ファームは WIRED、DISPATCHED、および ACTIVE 状態の順に移行します。失敗をデバッグするには、前の 2 つの問題を参照してください。

問題:

ファームの STANDBY 状態で、削除したディスクの消去に失敗する。

対処方法:

消去するためのデバイスの設定の手順は、ディスクコピーのためのデバイスの準備と同じです。この問題をデバッグするには、「ファームの配線の問題と解決策」の 3 番目の問題を参照してください。

問題:

ファームの STANDBY 状態で、デバイスを VLAN に移動できない。

対処方法:

この問題をデバッグするには、「ファームの配線の問題と解決策」の 1 番目の問題を参照してください。

問題:

ファームの STANDBY 状態で、デバイスの電源状態を変更できない。

対処方法:

「ファームの配線の問題と解決策」の 2 番目の問題で説明されているデバッグの方法を参照してください。

問題:

ディスクイメージのスナップショットが失敗する。スナップショット要求が完了すると、ファームがエラー状態のままになる。

対処方法:

ディスクスナップショットの準備は、サーバーディスクへのディスクコピーの設定と同じように行います。この問題をデバッグするには、「ファームの配線の問題と解決策」の 3番目の問題の指示に従います。

また、スナップショットプロセスは、スナップショットイメージを作成する前に、イメージサーバー上でスナップショットイメージのディスク容量を予約しようとします。イメージサーバーで容量が上限近くまで使用されている場合、スナップショットプロセスが失敗する可能性があります。この場合、サーバーから古いイメージを削除するか、別のストレージデバイスに古いイメージをバックアップします。古いイメージを削除するには、次のように image コマンドを使用します。 /opt/terraspring/sbin/image -d image-id

問題:

ファーム停止に失敗した。停止要求が完了すると、ファームがエラー状態のままになる。

対処方法:

ファーム停止の動作は STANDBY へのファームの移行とほぼ同じですが、削除するデバイスに対してスナップショットイメージが作成されないという例外があります。停止に失敗したファームの障害追跡では、ファームの STANDBY のデバッグの指示に従います。

問題:

デバイスのフェイルオーバーをサポートするための、交換デバイスの割り当てが不可能であった。「障害のあるデバイスの交換」の要求が完了すると、ファームがエラー状態のままになる。

対処方法:

障害のあるデバイスをバックアップデバイスと交換するには、バックアップデバイスが使用可能である必要があります。フリープールに使用可能なデバイスが存在しない場合、割り当ての問題により、障害のあるデバイスの交換は失敗します。交換デバイスが使用可能であることを確認するには、コマンド/opt/terraspring/sbin/device -LFr device-id を使用します。

問題:

デバイスのフェイルオーバーをサポートするための、交換デバイスのプロビジョニングが不可能であった。「障害のあるデバイスの交換」の要求が完了すると、ファームがエラー状態のままになる。

対処方法:

交換デバイスのプロビジョニングは、最初のファームの起動とファームの更新時での、新しく割り当てられるデバイスのプロビジョニングと同じように行われます。これらの問題をデバッグするには、「ファームの配線の問題と解決策」を参照してください。

問題:

コマンド /opt/terraspring/sbin/request -lf farm-id を実行する際に、要求はキューに入ったと表示されるが、処理されない。

対処方法:

次の項目を確認します。

ファームの状態をチェックし、ファームがエラー状態でないことを確認します。次のコマンドを入力します。
# /opt/terraspring/sbin/farm -l farm-id
ファームがエラー状態である場合は、ファーム要求は処理されません。ファームが、キュー内のファーム要求を処理できる正常な状態であると確認できた場合は、次の手順を実行します。
1. コマンド /opt/terraspring/sbin/farm -pf farm-id を使用してエラー状態をクリアします。このコマンドによりファームに ping が送信され、そのエラー状態がクリアされます。
2. コマンド /opt/terraspring/sbin/aps を入力して、セグメントマネージャ (sm) が稼働中であり、応答していることを確認します。
このファームに関して処理される次の要求は、QUEUED_BLOCKED としてマークされている要求以外のものである。

要求は先着順で処理され、また QUEUED_BLOCKED 要求は先に処理される必要があるため、ユーザーは処理されないファーム要求を発行している可能性があります。この要求を除去するには、ブロックされた要求のブロック解除と、ブロックされた要求の削除という、2 つの選択肢があります。要求をブロック解除するには次のコマンドを入力します。
request -u request-id
要求を削除するには次のコマンドを入力します。
request -d request-id
ファームが DEACTIVATED 以外の状態である。

DEACTIVATED 状態のファームは、別の状態に移行できません。ファームを停止すると、残された可能な唯一のファーム操作は、ファームの削除です。
セグメントマネージャのプロセスが活動中である。

上記のシナリオがいずれも該当しない場合は、セグメントマネージャのプロセスが応答しなくなっている可能性があります。すべてのプロセスが正しく稼働中であることを確認するには、コマンド /opt/terraspring/sbin/aps を使用します。プロセスが稼働中でない場合は、/etc/rc3.d/S99sm -start スクリプトを使用して、セグメントマネージャのプロセスを起動します。

問題:

障害のあるブレードが含まれるファームを停止できない。ファーム停止とデバイス交換の両方の要求が失敗する。

対処方法:

コマンド device -sB blade-id を入力して、障害のあるブレードを FAILED としてマークします。続いて、停止要求を再実行します。

ファームの配線の問題と解決策

ファームの起動時には、さまざまなチェックが行われます。 /opt/terraspring/sbin/farm -l コマンドを実行すると、ファームの状態が NEW/ALLOCATED/30 と表示される場合があります。この値は、配線の段階でファームに障害が生じたことを示しています。この節では、ファームの配線の障害に対して、考えられる原因と解決策を説明します。

問題:

VLAN へのデバイスの移動に失敗する。配線の段階におけるイメージ VLAN やファーム VLAN へのデバイスの移動の失敗は、複数の形態で発生します。

対処方法:

それぞれの失敗には、固有の解決策があります。

スイッチ上で SNMP コミュニティー文字列が正しく設定されていない場合は、VLAN へのファームデバイスの移動が失敗する場合があります。この問題を解決するには、管理者のパスワードと一致するよう、スイッチ上の public SNMP コミュニティー文字列を変更します。
デバイスの移動先である VLAN がシャーシスイッチの VLAN データベースで定義されていない場合。この問題を解決するには、ファームデバイスの移動先である VLAN を用いて VLAN データベースを更新します。
スイッチが、Provisioning Server から IP アクセス可能でない場合。この問題を解決するには、IP 接続が失敗する原因の可能性があるすべてのネットワークの問題を解決します。 IP 接続の問題を解決したら、次のように farm コマンドを使用して、起動要求を再実行します。 /opt/terraspring/sbin/farm -af farm-id

問題:

ブレードの電源状態を変更できない。

対処方法:

この問題には、いくつかの原因と解決策が考えられます。

シャーシのシステムコントローラ (SC) の showplatform -v 出力でブレードに障害があるとマークされている場合、N1 Provisioning Server ソフトウェアは、ブレードの電源状態の変更を拒否します。障害があるとマークされているブレードは、交換する必要があります。
シャーシの SC のログイン情報が、N1 Provisioning Server ソフトウェアに通知されているユーザー名およびパスワードと一致しない場合は、ブレードの電源状態を変更できません。この場合、ソフトウェアに通知されているユーザー名およびパスワードと一致するよう、シャーシの SC のログイン情報を更新する必要があります。
ブレードの電源状態の変更時には、N1 Provisioning Server システムは、シャーシの SC に IP で接続されている必要があります。この接続が許可されていない場合は、電源状態の変更が失敗します。
シャーシの SC がときどきハングする場合 (showplatform -v コマンドに応答しないか、応答速度が遅い場合)。この場合、シャーシへの電源をオフにしてから、電源をオンに戻す必要があります。続いて、コマンド/opt/terraspring/sbin/farm -af farm-id を使用してファームを再起動します。
最後に、 N1 Provisioning Server データベースに登録されているが、シャーシから物理的に取り外されているデバイスに対して、電源変更を実行しようとすると、power コマンドは失敗します。ファーム内で取り外されているデバイスに関する、障害のあるデバイスの交換要求を実行し、ファームを再起動します。

問題:

ディスクコピーに失敗する。ディスクコピーに失敗した場合、「Control Center」ウインドウにはエラーメッセージが表示されます。エラーの詳細は、デバッグのログファイル /var/adm/tspr.debug にあります。

対処方法:

イメージのコピーを行うためにリソースプールサーバーを準備するプロセスは、インストール時の最終実験検査テストで実行されるプロセスに似ています。 300 秒以内に稼働状態にならなかったデバイスの障害追跡を行うには、「インストールの検査の問題と解決策」を参照してください。

リソースプールサーバーへのコピーが要求されたイメージが、存在しないか READY 状態ではない場合も、イメージのコピーに失敗する可能性があります。リソースプールサーバーにコピーしようとするイメージが READY 状態であることを確認するには、コマンド /opt/terraspring/sbin/image -l image-id を使用します。実行する準備ができているものとしてイメージをマークするには、コマンド /opt/terraspring/sbin/imagesync --nosync image-id を使用します。

ディスクコピーのプロセスの開始に成功し、後に割り込みにより失敗した場合は、環境内のネットワークの問題を解決しなければならない可能性があります。

Previous: 第 1 章一般的な障害追跡のガイドラインと処置

第 2 章 インストールと構成の問題の解決

インストールの問題と解決策

インストールの検査の問題と解決策

ファームの起動と移行の問題と解決策

ファームの配線の問題と解決策

第 2 章インストールと構成の問題の解決