3


トラブルシューティング

この章では、一般的な障害について説明します。

次のメッセージは、cfgadm 診断メッセージの一例です。(ここには、構文に関するエラーメッセージは含まれていません。)

cfgadm: Configuration administration not supported on this machine
cfgadm: hardware component is busy, try again
cfgadm: operation: configuration operation not supported on this machine
cfgadm: operation: Data error: error_text
cfgadm: operation: Hardware specific failure: error_text
cfgadm: operation: Insufficient privileges
cfgadm: operation: Operation requires a service interruption
cfgadm: System is busy, try again
WARNING: Processor number number failed to offline. 

補足エラーメッセージの詳細は、cfgadm(1M)、cfgadm_sbd(1M)、cfgadm_pci(1M)、および config_admin(3CFGADM) のマニュアルページを参照してください。


構成解除操作での障害

構成解除操作を開始するときにシステムが正常な状態でない場合、CPU/メモリーボードまたは入出力ボードの構成解除操作で障害が発生することがあります。

CPU/メモリーボードの構成解除での障害

メモリーが複数のボードでインタリーブされているボードを構成解除できない

メモリーが複数のシステムボードでインタリーブされているシステムボードを構成解除しようとすると、次のようなエラーメッセージが表示されます。

cfgadm:Hardware specific failure:unconfigure N0.SB2::memory:Memory is 
interleaved across boards:/ssm@0,0/memory-controller@b,400000 

プロセスの結合先の CPU を構成解除できない

プロセスの結合先の CPU を構成解除しようとすると、次のようなエラーメッセージが表示されます。

cfgadm:Hardware specific failure:unconfigure N0.SB2::cpu3:Failed to off-line: 
/ssm@0,0/SUNW,UltraSPARC-III 

single-step bulletCPU からプロセスを結合解除し、もう一度構成解除操作を実行します。

すべてのメモリーを構成解除してからでないと、CPU を構成解除できない

CPU の構成解除を行う前に、システムボード上のすべてのメモリーを構成解除しておく必要があります。ボード上のすべてのメモリーを構成解除する前に CPU を構成解除しようとすると、次のようなエラーメッセージが表示されます。

cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu0: Can't unconfig cpu 
if mem online: /ssm@0,0/memory-controller 

single-step bulletボード上のすべてのメモリーを構成解除してから、CPU を構成解除します。

常時メモリーを搭載しているボード上のメモリーを構成解除できない

常時メモリーを搭載しているボード上のメモリーを構成解除するには、常時メモリーページを、使用できる十分なメモリーを搭載している別のボードに移動して、そこで保持します。構成解除操作を開始する前に、このような別のボードを用意しておく必要があります。

メモリーを再構成できない

次のようなメッセージが表示されて構成解除操作が失敗した場合は、ボード上のメモリーを構成解除することができなかったことになります。

cfgadm: Hardware specific failure: unconfigure N0.SB0: No available memory 
target: /ssm@0,0/memory-controller@3,400000 

十分なメモリーを別のボードに追加して、常時メモリーページをそこで保持してから、もう一度構成解除操作を実行します。

single-step bullet常時メモリーページを移動できないことを確認するには、cfgadm コマンドに詳細オプションを付けて実行し、表示されたリストで "permanent" という語を検索します。

# cfgadm -av -s "select=type(memory)"

使用できる十分なメモリーがない

次のメッセージのどちらかが表示されて構成解除が失敗した場合は、ボードを取り外すときに使用できる十分なメモリーがシステムにない可能性があります。

cfgadm: Hardware specific failure: unconfigure N0.SB0: Insufficient memory

cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation failed

 

single-step bulletシステム上のメモリーの負荷を減らしてから、もう一度実行します。実現可能であれば、別のボードのスロットにメモリーを追加します。

メモリー要求が増加した

次のメッセージが表示されて構成解除が失敗した場合は、構成解除操作を処理中にメモリー要求が増加しています。

cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation refused

single-step bulletシステム上のメモリーの負荷を減らしてから、もう一度実行します。

CPU を構成解除できない

CPU の構成解除は、CPU/メモリーボードの構成解除操作の一部です。
構成解除操作で CPU をオフラインにできない場合は、次のメッセージがコンソールに表示されます。

WARNING: Processor number failed to offline. 

この障害は、CPU が次の状態のときに発生します。

ボードの切り離しができない

ボードの構成解除はできますが、その後でボードを切り離すことができません。cfgadm ステータスには、ボードが切り離せない状態であると表示されます。この問題は、そのボードが、代替ボードに再配置できない重要なハードウェアサービスを提供しているときに発生します。

入出力ボードの構成解除での障害

デバイスが使用中のときは、そのデバイスを構成解除することも切り離すこともできません。入出力ボードを構成解除するときの大部分の障害は、ボード上の動作が停止していないためか、入出力デバイスが停止後に再度アクティブになったために発生します。

デバイスがビジーである

入出力ボードを構成解除または切り離す前に、そのボードに接続されているディスクをアイドル状態にする必要があります。デバイスが使用中であるときに、そのボードを構成解除または切り離しをしようとしても拒否されます。

入出力ボードがビジーであるか、または開いているデバイスがあるために構成解除操作が失敗した場合、そのボードは一部分だけが構成解除されたままになります。構成解除操作の処理は、ビジー状態のデバイスで停止します。

構成解除されなかったデバイスへのアクセスを回復するには、ボードを完全に構成解除してから再構成する必要があります。

ボード上のデバイスがビジーのときは、構成解除を試行した後に、次のメッセージが表示されます。

cfgadm: Hardware specific failure: unconfigure N0.IB6: Device busy: /ssm@0,0/pci@18,700000/pci@1/SUNW,isptwo@4/sd@6,0

構成解除操作を続けるには、デバイスを取り外してから、構成解除操作をもう一度実行します。ボードを再構成するときには、そのボードが構成解除状態になっている必要があります。

入出力デバイスでの問題

すべての入出力デバイスは構成解除する前に閉じる必要があります。

1. デバイスを開いたプロセスを調べるには、fuser(1M) コマンドを使用します。

2. 次のコマンドを実行して、vold デーモンを正常に終了します。

 # /etc/init.d/volmgt stop

3. 構成解除しようとしているカードに関連する、すべての SCSI コントローラを切り離します。接続されている全 SCSI コントローラのリストを入手するには、次のコマンドを使用します。

 # cfgadm -l -s "select=class(scsi)"

4. Solaristrademark Volume Manager (SVM) ミラーリングの冗長性機能を使って、ボードに接続されているデバイスにアクセスする場合は、他のシステムボード上のコントローラを介してデバイスやネットワークへアクセスできるように、これらサブシステムを再構成します。

5. ボードの常駐パーティションを持つ SVM メタデバイスを含めたファイルシステムをマウント解除します (たとえば、umount/partition)。

6. SVM データベースをボード常駐パーティションから削除します。SVM データベースの位置は、ユーザーが明示的に選択するものであり、変更が可能です。

7. Sun Volume Manager または Veritas Volume Manager が使用している占有領域を削除します。

デフォルトでは、Volume Manager は制御対象の各デバイスの占有領域を使用しているため、こういったデバイスを Sun Volume Manager の制御から削除してから、切り離す必要があります。

8. スワップ構成からディスクパーティションを削除します。

9. デバイスまたは raw パーティションを直接開くすべてのプロセスを終了するか、またはボード上で開いているデバイスを閉じるようにそのプロセスに指示します。



注 - ファイルシステムのマウント解除は、NFS クライアントシステムに影響する場合があります。



RPC や TCP のタイムアウト、または接続の損失

デフォルトでは、2 分経過するとタイムアウトが発生します。DR によるオペレーティングシステムの休止期間 (2 分以上続くこともあります) 中にタイムアウトにならないように、管理者はこのタイムアウト値を増やして 2 分以上とする必要がある場合があります。システムを休止すると、システムと関連ネットワークサービスが一定期間 (場合によっては 2 分以上) 使用できなくなります。この変更は、クライアントとサーバーの両方のマシンに影響します。


構成操作での障害

メモリーを構成する前に、システムボード上のすべての CPU を構成しておく必要があります。1 つまたは複数の CPU を構成解除しているときにメモリーを構成しようとすると、次のようなエラーメッセージが表示されます。

cfgadm: Hardware specific failure: configure N0.SB2::memory: Can't config memory if not all cpus are online: /ssm@0,0/memory-controller

入出力ボードの構成での障害

デバイスが接続されている入出力ボードがホットプラグに対応していないため、構成操作が失敗する場合があります。こういった場合、そのボードは一部分だけ構成されます。構成操作は、非対応のデバイスで停止します。その場合、他の構成操作を行う前に、そのボードを構成解除された状態に戻す必要があります。次のようなメッセージが表示されます。

cfgadm: Hardware specific failure: configure N0.IB6: Unsafe driver present: <device path>

single-step bullet構成操作を続けるには、非対応のデバイスドライバを削除するか、ホットプラグに対応している新しいバージョンのドライバと交換します。