Sun Cluster 3.0 データサービスのインストールと構成

Sun Cluster HA for Apache の障害モニター

Sun Cluster HA for Apache の検証機能は、Apache サーバーの状態を照会する要求をサーバーに送信します。検証機能が実際に Apache サーバーを照会する前に、ネットワークリソースがこの Apache リソース用に構成されていることの確認が行われます。ネットワークリソースが構成されていない場合は、エラーメッセージ (No network resources found for resource.) が記録され、検証はエラーとなり終了します。

検証機能は、次のことを行います。

  1. Probe_timeout リソースプロパティで設定されたタイムアウト値を使用し、Apache サーバーを正常に検証するための試行時間を制限します。

  2. Apache サーバーに接続し、HTTP 要求を送信して応答を受信することで、HTTP 1.0 HEAD 検査を実行します。検証機能は、各 IP アドレスとポートの組み合わせで Apache サーバーに順番に接続します。

    この照会の結果は、異常か正常のどちらかになります。検証機能が Apache サーバーからの応答を正常に受信した場合、検証機能は無限ループに戻り、検証と休止の次のサイクルを開始します。

    照会は、ネットワークトラフィックの混雑、過剰なシステム負荷、不適切な構成など、さまざまな理由によって失敗します。不適切な構成は、検証される IP アドレスとポートのすべての組み合わせに対し、Apache サーバーが待機するように構成されていない場合に生じます。Apache サーバーは、このリソースに指定した各 IP アドレスに対し、それぞれポートを提供する必要があります。Probe_timeout で指定した制限内 (前の手順 1 で指定) に照会に対する応答を受信しない場合は、検証機能は、Apache データサービスの一部で異常が発生したと判断し、履歴に異常を記録します。Apache の検証異常は、致命的な異常、または一部の異常になります。

    致命的な異常とみなされる検証異常は、以下のとおりです。

    • サーバーへの接続に失敗した場合。Failed to connect to %s port %d というエラーメッセージによってフラグが付きます。ここで、%s は、ホスト名を示し、%d はポート番号を示します。

    • サーバーに接続しようとしてタイムアウト (Probe_timeout リソースプロパティのタイムアウト値を超過) した場合。

    • 検証文字列のサーバーへの送信に失敗した場合。Failed to communicate with server %s port %d: %s というエラーメッセージによってフラグが付きます。ここで、最初の %s は、ホスト名を示し、%d はポート番号を示し、2 番目の %s は、エラーの詳細を示します。

      モニターは、Retry_interval リソースプロパティで指定した期間内で、以下に示す 2 つの一部の異常を累積し、1 つの致命的な異常としてカウントします。部分的に異常とみなされる検証の障害は次のとおりです。

      • 検証機能による照会に対し、サーバーからの応答を読み取ろうとしてタイムアウト (Probe_timeout リソースプロパティのタイムアウト値を超過) した場合。

      • 他の理由により、サーバーからのデータの読み取りに失敗した場合。Failed to communicate with server %s port %d: %s というエラーメッセージによってフラグが付きます。ここで、最初の %s は、ホスト名を示し、%d はポート番号を示し、2 番目の %s は、エラーの詳細を示します。

  3. 異常履歴に基づいて、データサービスのローカルでの再起動、またはデータサービスのフェイルオーバーのいずれかを実行します。詳細は、「データサービスの状態の検査」を参照してください。