Sun Enterprise 6x00, 5x00, 4x00, 3x00 システム Dynamic Reconfiguration ユーザーマニュアル

第 3 章 障害追跡

問題別の障害追跡

この章では、以下の一般的な問題について説明します。

診断メッセージ

cfgadm コマンドの診断メッセージの出力例を以下に示します (この例には、構文に関するエラーメッセージは含まれていません。)


cfgadm: Configuration administration not supported on this machine 
cfgadm: hardware component is busy, try again
cfgadm: operation: configuration operation not supported on this machine
cfgadm: operation: Data error: error_text
cfgadm: operation: Hardware specific failure: error_text
cfgadm: operation: Insufficient privileges
cfgadm: operation: Operation requires a service interruption
cfgadm: System is busy, try again
cfgadm: Hardware specific failure: memory delete failed: VM viability test failed
cfgadm: Hardware specific failure: memory delete failed: memory operation refused
cfgadm: Hardware specific failure: memory delete failed: memory delete timeout
WARNING: Processor number 番号 failed to offline. 
NOTICE: dual-sbus-soc+ board in slot 4 partially configured

その他のエラーメッセージの詳細については、config_admin(3X) を参照してください。

ドライバが DR に対応していない

DR 操作にまだ対応していないドライバがあります。DR 対応のドライバは一時停止可能である必要があります。

  1. 次のコマンドを使用して、一時停止可能なドライバであるかどうかを検査してください。


    # cfgadm -x quiesce-test sysctrl0:slot番号
    


ヒント -

sysctrl0 の l は英小文字のエル、0 は数字のゼロです。


Sun Enterprise 6x00/5x00/4x00/3x00 システムで使用されている入出力ボードの中には、DR がサポートされていないものもあります。最新の情報については、購入先または担当営業にお問い合わせ下さい (このマニュアルの「Sun Enterprise DR の最新情報」を参照)。

構成解除操作を行えない

構成解除操作を行うには、以下の条件が満たされている必要があります。

CPU/メモリーボードを構成解除できない

以下の場合は、CPU/メモリーボードに対して構成解除操作は実行できません。

メモリーバンクを構成解除できない

メモリーバンクを構成解除するには、メモリーの内容をスワップ装置、ファイルシステム、または削除されていないメモリー部分に移動できる必要があります。

バンクを再構成できない

構成解除に失敗して次のメッセージが表示された場合、そのバンクは構成解除できません。


cfgadm: Hardware specific failure: memory delete failed: non-relocatable pages in span

メモリーページには、移動できないページもあります。

  1. メモリーページが移動できないかどうかを確認するには、cfgadm コマンドで詳細表示オプション (-v) を使用して、リストに permanent と示されているかどうかを調べます。


    # cfgadm -v ac番号
    

使用できるメモリーが不足する

構成解除操作が失敗して以下のいずれかのメッセージが表示された場合、ボードの切り離しにより、システムで使用できるメモリーの不足が発生します。


cfgadm: Hardware specific failure: memory delete failed: VM viability test failed


cfgadm: Hardware specific failure: memory delete failed: memory operation refused

  1. システムのメモリー負荷を減らして、操作をやり直します。可能であれば、別のボードスロットにメモリーを取り付けます。

メモリー負荷が大きくなる

構成解除に失敗して次のメッセージが表示された場合は、構成解除の処理中のメモリー負荷が大きくなっています。


cfgadm: Hardware specific failure: memory delete failed: memory delete timeout

  1. システムのメモリー負荷を減らして、操作をやり直します。

CPU を構成解除できない

CPU の構成解除は、CPU/メモリーボードに対する構成解除の操作の一部として行われます。構成解除操作で CPU をオフラインにできなかった場合は、コンソールに次のメッセージが表示されます。


WARNING: Processor 番号 failed to offline. 

この問題は、以下のいずれかの場合に発生します。

ボードを切り離せない

ボードを構成解除しても、その後でボードを切り離せないことがあります。そのようなボードは、cfgadm の状態表示では not detachable となっています。このような問題が発生するのは、そのボードが代替ボードへの切り替えが不可能な基本的なハードウェアサービスを提供している場合です。

入出力ボードの構成解除操作を行えない

使用中のデバイスは、構成解除も切り離しもできません。入出力ボードの構成解除が失敗する原因は、ボード上の活動が停止していなかったり、停止した後で再び入出力装置がアクティブになったりする場合がほとんどです。

システムで AP (Alternate Pathing) を使用している場合は、構成解除するボードのすべての入出力活動を代替の入出力ボードに切り替えてください。

装置が使用中である

入出力ボードを構成解除あるいは切り離すには、そのボードに接続されているディスクがアイドル状態である必要があります。使用中の装置が存在するボードを構成解除または切り離そうとしても、拒否されます。

入出力ボードに使用中または開いている装置が存在していることによって構成解除操作が失敗した場合は、ボードは部分的に構成解除されたままになります。構成解除処理は、その使用中の装置で停止します。

構成解除されなかった装置に再びアクセスするには、いったんボードを完全に構成解除して、再構成する必要があります。

このとき、システムは次のようなログメッセージを出力します。


NOTICE: unconfiguring dual-pci board in slot 7
NOTICE: dual-pci board in slot 7 partially unconfigured 

  1. 構成解除操作を続行するには、装置をマウント解除して、構成解除操作をやり直します。同じボードを再構成するには、ボードが構成解除された状態である必要があります。

入出力装置に関する問題

入出力装置を構成解除するには、その装置が閉じられている必要があります。

  1. 入出力装置を開いているプロセスを調べるには、fuser(1M) コマンドを使用します。

  2. 入出力装置に対して次の操作を行います。

    • AP の冗長性機能または Solstice DiskSuite のミラー化機能を使用して、ボードに接続されている装置にアクセスしている場合は、これらのサブシステムを再構成して、別のシステムボードのコントローラを使用してその装置またはネットワークにアクセスできるようにします。

    • ボード上に常駐パーティションを持つ Solstice DiskSuite メタデバイスなどのファイルシステムをマウント解除します (例: umount /パーティション)。

    • ボード上の常駐パーティションから Solstice DiskSuite または Alternate Pathing データベースを削除します。Solstice DiskSuite または AP データベースの格納場所は、ユーザが選択、変更できます。

    • Sun Enterprise Volume Manager が使用しているすべての専用領域を削除します。デフォルトでは、Volume Manager は、自身が管理する装置ごとに専用領域を使用します。このため、そうした装置は、Volume Manager の管理対象から除外してから切り離します。

    • 切り離すボードに Sun RSM 2000 コントローラが搭載されている場合は、rm6 または rdacutil コマンドを使用してオフラインにします。

    • スワップ構成からディスクパーティションを削除します。

    • 装置や raw パーティションを直接に開いている処理は、強制的に終了するか、その処理にボード上の開いている装置を閉じさせます。

    • 切り離しに対して危険な装置がボード上に存在する場合は、その装置のすべてのインスタンスを閉じ、modunload(1M) コマンドでドライバを読み込み解除します。


      注意 - 注意 -

      ファイルシステムをマウント解除すると、NFS クライアントシステムがその影響を受けることがあります。


RPC または TCP の時間切れ、回線切れ

デフォルトでは、時間切れは 2 分経過すると発生します。DR 操作によって引き起こされるオペレーティング環境の休止 (システムとそれに関連するネットワークサービスが使用不可となる状態) は 2 分を超えることがあるため、必要に応じて時間切れの設定値を引き延ばし、DR 操作中に時間切れが発生しないように処置しておく必要があります。このような変更は、クライアントマシンとサーバーマシンの両方に影響します。

構成操作を行えない

CPU/メモリーボードを構成できない

CPU/メモリーボードが意図的に使用不可に設定されている場合、そのボードに搭載されているメモリーバンクを構成することはできません。たとえば、次のように表示されます。


# cfgadm -c configure ac0:bank0
cfgadm: Hardware specific failure: memory is disabled at boot

  1. この問題を解決するには -f (force) オプションを使用します。


    # cfgadm -c configure -f ac0:bank0
    

入出力ボードを構成できない

入出力ボード上の 1 つの装置がホットプラグに対応していないために、構成操作が失敗することがあります。このような場合は、ボードは部分的にしか構成されません。構成操作は、その対応していない装置で停止します。再び構成操作を行うには、ボードをいったん構成解除する必要があります。このときシステムは、次のようなログメッセージを出力します。


NOTICE: configuring dual-sbus-soc+ board in slot 4
NOTICE: dual-sbus-soc+ board in slot 4 partially configured

  1. 構成操作を続行するには、ホットプラグに対応していないデバイスのドライバを削除するか、ホットプラグに対応しているドライバに交換します。

使用不可ボードリスト

使用不可ボードリストに登録されているボードに接続処理を実行しようとすると、次のエラーメッセージが返されることがあります。


# cfgadm -c connect sysctrl0:slot番号
cfgadm: Hardware specific failure: connect failed: board is disabled: must override with [-f][-o enable-at-boot]

  1. ある使用不可ボードについて、このリストへの登録を無効にして使用可能な状態に変更するには、以下に示すように cfgadm コマンドで force フラグ (-f) または enable オプション (-o enable-at-boot) を使用します。


    # cfgadm -f -c connect sysctrl0:slot番号
    


    # cfgadm -o enable-at-boot -c connect sysctrl0:slot番号
    

  1. すべてのボードをこの使用不可ボードリストから削除するには、以下のシステムコマンドを入力して、disabled-board-list 変数の設定を解除します。


    # eeprom disabled-board-list=
    

  1. OpenBoot プロンプトから設定する場合は、次の OBP コマンドを使用して、使用不可ボードリストからすべてのボードを削除します。


    OK set-default disabled-board-list