Sun Cluster Geographic Edition のシステム管理

付録 D Sun Cluster Geographic Edition ソフトウェアのトラブルシューティング

この付録では、Sun Cluster Geographic Edition ソフトウェアのアプリケーションのトラブルシューティング手順について説明します。

この付録は、次の節で構成されます。

監視とログのトラブルシューティング

この節では、ログの設定、および Sun Cluster Geographic Edition ソフトウェアの監視に関して直面する可能性のある問題について説明します。

トレースの数が増えすぎないようにログファイルを構成する

ログに記録するメッセージに応じて、ログファイル /etc/opt/SUNWcacao/logger.properties を次のように構成します。

有効になったトレースが /var/opt/SUNWcacao/logs/cacao.0 ファイルにコピーされます。

gcr エージェントからの詳細メッセージを避けるようにログファイルを構成する

gcr エージェントからの詳細メッセージがログファイル内で多くなり過ぎるのを避ける場合は、次のようなエントリをログファイル /etc/opt/SUNWcacao/logger.properties で使用します。


com.sun.cluster.level=WARNING
com.sun.cluster.agent.geocontrol.gcr.level=INFO
com.sun.cluster.agent.geocontrol.level=ALL

このプロパティーファイルは、SUNWscmasa パッケージを再インストールするたびに更新されます。

jmx リモートトレースを避けるようにログファイルを構成する

jmx リモートトレースを避けるには、次の行を logger.properties ファイルの先頭に追加します。


javax.management.remote.level=OFF
com.sun.jmx.remote.level=OFF
java.io.level=OFF

移行に関する問題のトラブルシューティング

この節では、Sun Cluster Geographic Edition ソフトウェアを使用してサービスを移行する際に直面する可能性のある問題について説明します。

ストレージデバイスとの通信が喪失したときのアプリケーションリソースグループのフェイルオーバーに関する問題を解決する

アプリケーションがオンライン状態になっているノードとストレージデバイス間の通信が遮断すると、一部のアプリケーションリソースグループで、ストレージにアクセスできるノードに適切にフェイルオーバーすることができなくなる可能性があります。このようなアプリケーションリソースグループは、最終的に ERROR_STOP_FAILED 状態になる可能性があります。

対処方法または回避方法

Sun Cluster インフラストラクチャーは、I/O エラーがボリュームまたはその配下のデバイスで発生したときに、スイッチオーバーを開始しません。スイッチオーバーまたはフェイルオーバーがまったく発生しないため、ストレージへのアクセスができなくなったにもかかわらず、デバイスサービスはそのノードでオンラインのままになります。

この問題が発生した場合は、Sun Cluster の標準の手順を使用してアプリケーションリソースグループを正しいノードで再起動してください。ERROR_STOP_FAILED 状態からの回復とアプリケーションの再起動については、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』「リソースの STOP_FAILED エラーフラグの消去」を参照してください。

Sun Cluster Geographic Edition ソフトウェアはアプリケーションリソースグループ内の状態変更を検出し、geoadm status コマンドの出力の中でそれらの状態を表示します。このコマンドの使用方法については、「Sun Cluster Geographic Edition ソフトウェアの実行時状態の監視」を参照してください。

クラスタの起動および再起動のトラブルシューティング

この節では、Sun Cluster Geographic Edition ソフトウェアの起動および再起動に関して直面する可能性のある問題のトラブルシューティングについて説明します。

エラー状態の保護グループを検証する

クラスタのリブート後、保護グループの構成がエラー状態になることがあります。この問題は、リブート後に保護グループが初期化されるときに、クラスタのノードの 1 つで共通エージェントコンテナプロセスを使用できないことが原因で起こる可能性があります。

対処方法または回避方法

構成エラーを修正するには、エラー状態にある保護グループ上で geopg validate コマンドを使用します。

共通エージェントコンテナを再起動する

Sun Cluster ソフトウェアは、Sun Cluster ソフトウェアのインストール時にのみ、共通エージェントコンテナを有効にします。したがって、インストール後の任意の時点で共通エージェントコンテナを無効にした場合、共通エージェントコンテナは無効のままになります。

対処方法または回避方法

ノードのリブート後に共通エージェントコンテナを有効にするには、/opt/SUNWcacao/bin/cacaoadm enable コマンドを使用します。