付録B


トラブルシューティング

この章では、一般的な障害について説明します。

以下は、cfgadm 診断メッセージの出力例です。ただし、構文エラーに関するものは含みません。


cfgadm:Configuration administration not supported on this machine
cfgadm:hardware component is busy, try again
cfgadm:operation:configuration operation not supported on this machine
cfgadm:operation:Data error:error_text
cfgadm:operation:Hardware specific failure:error_text
cfgadm:operation:Insufficient privileges
cfgadm:operation:Operation requires a service interruption
cfgadm:System is busy, try again
WARNING:Processor number failed to offline. 

 

その他のエラーメッセージについては、cfgadm(1M)、cfgadm_sbd(1M)、および cfgadm_pci(1M)、および config_admin(3CFGADM) のマニュアルページを参照してください。


構成解除操作の障害

システムボードまたは入出力ボードの構成解除操作を開始するとき、システムの状態が適切でないと、操作に失敗することがあります。

システムボードの構成解除の障害

メモリーが複数のボードにインタリーブされている場合、ボードの構成を解除できない

メモリーが複数のシステムボードにインタリーブされている場合、システムボードの構成を解除しようとすると、以下のようなエラーメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB2::memory:Memory is
interleaved across boards:/ssm@0,0/memory-controller@b,400000 

 

プロセスが割り当てられている CPU の構成は解除できない

CPU にプロセスが割り当てられている場合、この CPU の構成を解除しようとすると、以下のようなエラーメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB2::cpu3:Failed to off-line:
/ssm@0,0/SUNW,UltraSPARC-III 

 

single-step bulletCPU へのプロセスの割り当てを解除し、構成解除操作を再試行してください。

すべてのメモリーの構成を解除しないと、CPU の構成を解除できない (ミッドレンジシステムのみ)

CPU の構成を解除する前に、システムボード上のすべてのメモリーの構成を解除しておく必要があります。ボード上のすべてのメモリーの構成が解除されていない状態で CPU の構成を解除しようとすると、以下のようなエラーメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB2::cpu0:Can't unconfig cpu 
if mem online:/ssm@0,0/memory-controller

 

single-step bulletボード上のすべてのメモリーの構成を解除してから、CPU の構成を解除します。

永続メモリーを搭載したボード上のメモリーの構成を解除できない

永続メモリーを搭載したボード上のメモリーの構成を解除するには、十分な容量がある別のボードに永続メモリーを移動します。構成解除操作を開始する前に、このような追加のボードを用意する必要があります。

メモリーを再構成できない

ボード上のメモリーの構成解除ができなかった場合は、構成解除操作に失敗し、以下のようなエラーメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB0:No available memory 
target:/ssm@0,0/memory-controller@3,400000 

 

永続メモリーページの格納用として、十分な容量のあるボードを別途追加してから、構成解除の操作を再試行します。

single-step bulletメモリーページを移動できないことを確認します。

「permanent」というキーワードでリスト内を検索します。


# cfgadm -av -s "select=type(memory)"

 
使用可能なメモリーが不足している

ボードを削除すると、システムの使用可能なメモリーが不足してしまう場合は、構成解除操作に失敗し、以下のようなメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB0:Insufficient memory

cfgadm:Hardware specific failure:unconfigure N0.SB0:Memory operation failed

  

single-step bulletシステム上のメモリー負荷を削減して再試行してください。また、必要に応じて別のボードスロットにメモリーを追加インストールしてください。

必要なメモリー容量が増えた

構成解除操作の実行中に必要なメモリー容量が増えた場合、構成解除操作に失敗し、以下のようなメッセージが表示されます。


cfgadm:Hardware specific failure:unconfigure N0.SB0:Memory operation refused

 

single-step bulletシステム上のメモリー負荷を削減して再試行してください。

CPU の構成を解除できない

CPU の構成の解除は、システムボードの構成の解除の一環として行われます。
CPU をオフラインにする操作に失敗した場合、コンソールログに以下のメッセージが書き込まれます。


WARNING:Processor number failed to offline. 

 

この場合、以下の問題が発生したと考えられます。

ボードを切り離せない

ボードの構成解除後、切り離すことができない場合があります。この場合、cfgadm ステータスディスプレイに、このボードは切り離しが可能でないと表示されます。この問題は、このボードが別のボードでは実行できない重要なハードウェアサービスを提供している場合に発生します。

入出力ボードの構成解除の障害

使用中のデバイスは、構成を解除したり、切り離したりできません。入出力ボードの構成解除に失敗するのは、多くの場合、ボード上でのアクティビティが停止していなかったり、入出力デバイスが停止後に再びアクティブになっていたりするためです。

デバイスビジー

入出力ボードの構成解除や切り離しを行う前に、このボードに取り付けられたディスクをアイドル状態にする必要があります。ボード上のデバイスの使用中は、このボードの構成解除や切り離しは実行できません。

入出力ボード上に使用中のデバイスがあるため構成解除操作に失敗した場合、ボードの構成は完全には解除されません。構成解除の操作は、該当デバイスのところで停止します。

構成解除されなかったデバイスに再度アクセスできるようにするには、いったんボードの構成を完全に解除し、再構成する必要があります。

ボード上に使用中のデバイスがある状態で構成解除の操作を行うと、システムログに以下のようなメッセージが書き込まれます。


cfgadm:Hardware specific failure:unconfigure N0.IB6:Device busy:/ssm@0,0/pci@18,700000/pci@1/SUNW,isptwo@4/sd@6,0

 

構成解除の操作を続行するには、デバイスのマウントを解除してから、構成解除の操作を再試行します。ボードの再構成を行うには、ボードの構成解除された状態にする必要があります。

入出力デバイスでの問題

1. fuser(1M) コマンドを使って、デバイスを使用しているプロセスを確認します。

2. 通常の手順を踏んで、vold デーモンを強制終了します。


 # /etc/init.d/volmgt stop

 

3. 構成を解除しようとしているカードに関連付けられた SCSI コントローラをすべて切り離します。

接続中のすべての SCSI コントローラのリストを表示するには、以下のコマンドを実行します。


 # cfgadm -l -s "select=class(scsi)"

 

4. ボードに接続中のデバイスにアクセスする手段として、Solaris Volume Manager の冗長機能 (ミラー化機能) が使用されている場合、これらのサブシステムを再構成して、ほかのシステムボード上のコントローラからデバイスまたはネットワークにアクセスできるようにします。

5. ボード常駐パーティションを持つ Volume Manager メタデバイスを含めて、ファイルシステムのマウントを解除します。


# umount/partition

 

6. ボード常駐パーティションから Volume Manager データベースを削除します。

Volume Manager データベースの場所は、ユーザーが明示的に選択します。したがって、変更も可能です。

7. Solaris Volume Manager または Veritas Volume Manager によって使用されている占有領域があれば、すべて削除します。

Solaris Volume Manager は、デフォルトで、制御している各デバイス上に占有領域を 1 つずつ持っています。したがって、これらのデバイスを切り離すには、まず Solaris Volume Manager の制御下から削除する必要があります。

8. スワップ構成からディスクパーティションを削除します。

9. デバイスまたは raw パーティションを直接使用しているプロセスがあれば強制終了します。または、このプロセスに対して、ボード上の使用中のデバイスを終了するように指示します。



注 - ファイルシステムのマウント解除が NFS クライアントシステムに影響を及ぼすことがあります。



RPC または TCP のタイムアウトと接続ロス

タイムアウトは、デフォルトでは 2 分後に発生します。DR は、オペレーティングシステムを 2 分以上休止することがあります。この休止中にタイムアウトが発生するのを回避する場合、管理者は、タイムアウト値を大きくする必要があります。システムが休止している間 (2 分以上のこともある)、システムと関連ネットワークサービスは使用できません。これらの変更は、クライアントマシンとサーバーマシンの両方に影響をおよぼします。


構成操作の障害

メモリーの構成の障害 (ミッドレンジシステムのみ)

メモリーの構成を行う前に、システムボード上のすべての CPU の構成を完了しておく必要があります。未構成の CPU がある状態でメモリーの構成を試行すると、以下のようなエラーメッセージが表示されます。


cfgadm:Hardware specific failure:configure N0.SB2::memory:Can't config memory if not all cpus are online:/ssm@0,0/memory-controller

 

入出力ボードの構成の障害

デバイスが搭載されている入出力ボードが、一時的にしろホットプラグをサポートしない場合、構成操作は失敗します。このような場合、ボードの構成は完全には行われません。構成の操作は、サポートされないデバイスのところで停止します。この場合、構成の操作を再試行するには、いったんボードの構成を解除する必要があります。システムログに、以下のようなメッセージが書き込まれます。


cfgadm:Hardware specific failure:configure N0.IB6:Unsafe driver present:<device path>

 

single-step bullet構成の操作を続行するには、サポートされないデバイスを削除するか、現在のドライバをホットプラグ対応のドライバと交換します。