Sun Cluster 3.0 5/02 補足情報

Sun Cluster HA for SAP 障害検証 (セントラルインスタンス)

セントラルインスタンスの障害検証では次の手順を実行します。

  1. SAP Message Server とディスパッチャのプロセス ID を取得します。

  2. 無限にループします (Thorough_probe_interval の間スリープ)。

  3. SAP リソースの状態を検査します。

    1. 異常終了 - Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。

    2. 検証による SAP リソースの状態検査 - 検証では、ps(1) コマンドを使って、SAP Message Server と主ディスパッチャのプロセスを検査します。SAP Message Server や主ディスパッチャのプロセスの中にシステムのアクティブプロセスリストにないものがあると、障害モニターは、この問題を全面的な障害とみなします。

      検証では、パラメータ Check_ms_retry に 0 より大きな値を設定すると、SAP Message Server の接続が検査されます。拡張プロパティ Lgtst_ms_with_logicalhostname にデフォルト値 TRUE を設定すると、lgtst ユーティリティを使って SAP Message Server の接続がテストされます。検証では、SAP リソースグループに指定された論理ホスト名インタフェースを使って、SAP 提供の lgtst ユーティリティが呼び出されます。拡張プロパティ Lgtst_ms_with_logicalhostnameTRUE 以外の値を設定すると、lgtst はノードのローカルホスト名 (ループバックインタフェース) で呼び出されます。

      lgtst ユーティリティの失敗は、SAP Message Server の接続が正常に機能していないことを意味します。この場合、障害モニターは、この問題を部分的な障害とみなし、直ちに SAP の再起動やフェイルオーバーを引き起こすことはありません。次の条件が存在する場合、障害モニターは、2 つの部分的な障害を全面的な障害とみなします。

      1. 拡張プロパティ Check_ms_retry2 が設定されている。

      2. リソースプロパティ Retry_interval で設定された再試行期間内に 2 つの部分的な障害があった。

      全面的な障害が発生すると、リソースの障害履歴に応じてローカル再起動かフェイルオーバーが引き起こされます。

    3. 検証によるデータベース接続の状態 - 検証では、SAP 提供の R3trans ユーティリティを使って データベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。しかし、Sun Cluster HA for SAP は、高可用性データベース障害検証を通してデータベースの状態を検査する必要があります。障害モニターは、データベース接続のステータス検査に失敗すると、Database might be down というメッセージを syslog に書き込みます。そして、SAP リソースの状態に DEGRADED を設定します。この後のデータベースの状態検査で接続が確立されていると、障害モニターは、Database is up というメッセージを syslog に書き込み、SAP リソースの状態に OK を設定します。

  4. 障害履歴を評価します。

    障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。

    • アクションなし

    • ローカル再起動

    • フェイルオーバー