一時的な障害による中断を最小限に抑えるために、障害モニターは、このような障害が発生するとこのリソースを再起動します。継続的な障害の場合は、リソースの再起動よりも複雑なアクションをとる必要があります。
フェイルオーバーリソースの場合は、障害モニターがこのリソースを別のノードにフェイルオーバーします。
スケーラブルリソースの場合は、障害モニターがこのリソースをオフラインにします。
障害モニターは、指定された再試行間隔の中で、リソースの完全な障害の回数が、指定されたしきい値を超えると障害を継続的であるとみなします。ユーザーは、継続的な障害とみなす基準を定義することによって、 可用性要件とクラスタの性能特性を満たすしきい値や再試行間隔を設定できます。
障害モニターは、いくつかの障害を、リソースの「完全な障害」としてみなします。完全な障害は通常、サービスの完全な損失を引き起こします。次に、完全な障害の例を示します。
データサービスサーバーのプロセスの予期せぬ終了
障害モニターがデータサービスサーバーに接続できない
完全な障害が発生すると、障害モニターは再試行間隔内の完全な障害の回数を 1 つ増やします。
障害モニターは、それ以外の障害を、リソースの「部分的な障害」としてみなします。部分的な障害は完全な障害よりも重大ではなく、通常、サービスの低下を引き起こしますが、サービスの完全な損失は引き起こしません。次に、障害モニターがタイムアウトするまでにデータサービスサーバーからの応答が不完全であるという部分的な障害の例を示します。
部分的な障害が発生すると、障害モニターは再試行間隔内の完全な障害の回数を小数点数だけ増やします。部分的な障害は、再試行間隔を過ぎても累積されます。
部分的な障害の次の特性は、データサービスに依存します。
障害モニターが部分的な障害とみなす障害のタイプ
それぞれの部分的な障害が完全な障害の回数に追加する小数点数
データサービスの障害モニターが検出する障害については、データサービスのマニュアルを参照してください。
障害のあるリソースが再起動するのに必要な最大時間は、次のプロパティの値を合計したものです。
Thorough_probe_interval システムプロパティ
Probe_timeout 拡張プロパティ
再試行回数がしきい値に達しないうちに再試行間隔がきてしまうのを避けるためには、再試行間隔としきい値の値を次の式に従って計算します。
retry-interval ≥ threshold × (thorough-probe-interval + probe-timeout)
しきい値と再試行間隔を設定するには、リソースの次のようなシステムプロパティを使用します。