ここでは、Sun Cluster HA for N1 Service Provisioning System 障害モニターの検証アルゴリズムと機能について説明するとともに、検証エラーに関連する状況、メッセージ、回復アクションを示します。
障害モニターの概念については、『Sun Cluster 3.1 の概念』を参照してください。
Sun Cluster HA for N1 Service Provisioning System 障害モニターは、リソースタイプ SUNW.gds と同じリソースプロパティーを使用します。使用するリソースプロパティーの全リストについては、SUNW.gds(5) のマニュアルページを参照してください。
Master Server の検証は 2 つの部分から成ります。その 1 つは Apache Tomcat の検証で、もう 1 つはデータベースの検証です。
次に、N1 Grid Service Provisioning System Master Server の妥当性を監視する手順を示します。
Thorough_probe_interval の間、休止します。
Sun Cluster HA for N1 Service Provisioning System Master Server パラメータファイルで構成されている Host を ping します。
Host と Port を介して Apache Tomcat に接続します。接続が正常に行われると、TestCmd が送信され、ReturnString が戻るかテストが行われます。接続が失敗すると、5 秒後に再スケジュールされます。再び失敗すると、検証プログラムによって Sun Cluster HA for N1 Service Provisioning System が再起動します。
「 Connection refused 」は接続が不可能な場合に返される文字列であるため、ReturnString にこの文字列を指定することはできません。
Apache Tomcat が稼働している場合、検証プログラムはデータベーステーブル sc_test の操作を行います。データベースへの接続またはテーブルの操作が失敗に終わる場合、N1 Grid Service Provisioning System Master Server が再起動されます。
Apache Tomcat プロセスとすべてのデータベースプロセスが停止した場合には、pmf によって検証プログラムが遮断され、N1 Grid Service Provisioning System Master Server がただちに再起動されます。
N1 Grid Service Provisioning System Master Server が繰り返し再起動され、最終的に Retry_interval の Retry_count がゼロになると、別のノードでそのリソースグループのフェイルオーバーが開始されます。これは、リソースプロパティー Failover_enabled に TRUE が設定されいている場合の動作です。
Remote Agent の検証は pmf によってのみ行われます。
N1 Grid Service Provisioning System Remote Agent の監視は次の手順で行われます。
Remote Agent のプロセスが停止した場合、pmf は N1 Grid Service Provisioning System Remote Agent をただちに再起動します。
N1 Grid Service Provisioning System Remote Agent が繰り返し再起動され、最終的に Retry_interval の Retry_count がゼロになると、別のノードでそのリソースグループのフェイルオーバーが開始されます。これは、リソースプロパティー Failover_enabled に TRUE が設定されいている場合の動作です。
Local Distributor の検証は pmf によってのみ行われます。
N1 Grid Service Provisioning System Local Distributor の監視は次の手順で行われます。
Local Distributor のプロセスが停止した場合、pmf は N1 Grid Service Provisioning System Local Distributor をただちに再起動します。
N1 Grid Service Provisioning System Local Distributor が繰り返し再起動され、最終的に Retry_interval の Retry_count がゼロになると、別のノードでそのリソースグループのフェイルオーバーが開始されます。これは、リソースプロパティー Failover_enabled に TRUE が設定されいている場合の動作です。