継続的な障害とみなす基準を定義する

言語:

リソース内の一時的な障害によって発生する中断を最小限に抑えるために、障害モニターは、このような障害に対応してそのリソースを再起動します。継続的な障害に対しては、リソースの再起動より根本的なアクションが必要になります。

フェイルオーバーリソースの場合、障害モニターは、そのリソースを別のノードにフェイルオーバーします。
スケーラブルリソースの場合、障害モニターは、そのリソースをオフラインにします。

指定された再試行間隔内にリソースの完全な障害の数が指定されたしきい値を超えると、障害モニターはその障害を継続的として処理します。継続的な障害とみなす基準の定義により、クラスタのパフォーマンス特性や可用性の要件に対応するためのしきい値と再試行間隔を設定できるようになります。

リソースの完全な障害と部分的な障害

障害モニターは、一部の障害をリソースの完全な障害として処理します。完全な障害によって、通常、サービスは完全に失われます。完全な障害の例を次に示します。

データサービスサーバーのプロセスの予期しない終了
障害モニターがデータサービスサーバーに接続できない

完全な障害を検出すると、障害モニターは、その再試行間隔内の完全な障害のカウントを 1 増やします。

障害モニターは、その他の障害をリソースの部分的な障害として処理します。部分的な障害は完全な障害に比べて重大性が低く、通常はサービスが低下しますが、サービスが完全に失われることはありません。部分的な障害の例として、障害モニターの検証がタイムアウトする前のデータサービスサーバーからの不完全な応答があります。

部分的な障害を検出すると、障害モニターは、その再試行間隔内の完全な障害のカウントを分数の量だけ増やします。部分的な障害は、その再試行間隔にわたって引き続き累積されます。

部分的な障害の次の特性は、データサービスによって異なります。

障害モニターが部分的な障害として処理する障害のタイプ
部分的な各障害によって完全な障害のカウントに追加される分数の量

データサービスの障害モニターが検出する障害については、そのデータサービスに関するドキュメントを参照してください。

しきい値と再試行間隔のその他のプロパティーに対する依存関係

障害のあるリソースの 1 回の再起動に必要な最大時間は、次のプロパティーの値の合計値です。

Thorough_probe_interval システムプロパティー
Probe_timeout 拡張プロパティー

再試行間隔内にしきい値に達するための十分な時間が確保されるようにするには、次の式を使用して再試行間隔の値としきい値を計算します。

retry_interval >= 2 x threshold × (thorough_probe_interval + probe_timeout)

2 の係数は、リソースのフェイルオーバーやオフライン化をただちに引き起こすわけではない部分的な検証障害を考慮しています。

しきい値と再試行間隔を設定するためのシステムプロパティー

しきい値と再試行間隔を設定するには、リソースの次のシステムプロパティーを設定します。

しきい値を設定するには、Retry_count システムプロパティーを完全な障害の許可される最大数に設定します。
再試行間隔を設定するには、Retry_interval システムプロパティーを必要な間隔 (秒単位) に設定します。