Sun Cluster 3.1 データサービスのインストールと構成

Sun Cluster HA for SAP の障害モニターとは

Sun Cluster HA for SAP 障害モニターは、SAP のプロセスやデータベースの可用性を検査するためのものです。SAP プロセスの可用性は SAP リソースの障害履歴に影響を及ぼします。さらに SAP リソースの障害履歴は、障害モニターのアクション (アクションなし、再起動、またはフェイルオーバー) を促します。

SAP プロセスの可用性とは対照的に、SAP データベースの可用性の使用は、SAP リソースの障害履歴に影響を及ぼしません。ただし、データベースの可用性により、SAP 障害モニターは、任意のsyslog メッセージを /var/adm/messages に書き込み、そのデータベースを使用する SAP リソース用に状態をそれぞれ設定するようになります。

Sun Cluster HA for SAP 障害検証 (セントラルインスタンス)

セントラルインスタンスの障害検証では次の手順を実行します。

  1. SAP Message Server とディスパッチャのプロセス ID を取得します。

  2. 無限にループします (Thorough_probe_interval の間スリープ)。

  3. SAP リソースの可用性を検査します。

    1. 異常終了 – Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。

    2. 検証機能による SAP リソースの可用性検査 – 検証機能は、ps(1) コマンドを使って SAP メッセージサーバーとメインディスパッチャのプロセスを検査します。SAP Message Server や主ディスパッチャのプロセスの中にシステムのアクティブプロセスリストにないものがあると、障害モニターは、この問題を全面的な障害とみなします。

      検証では、パラメータ Check_ms_retry に 0 より大きな値を設定すると、SAP Message Server の接続が検査されます。拡張プロパティ Lgtst_ms_with_logicalhostname にデフォルト値 TRUE を設定すると、lgtst ユーティリティを使って SAP Message Server の接続がテストされます。検証では、SAP リソースグループに指定された論理ホスト名インタフェースを使って、SAP 提供の lgtst ユーティリティが呼び出されます。拡張プロパティ Lgtst_ms_with_logicalhostnameTRUE 以外の値を設定すると、lgtst はノードのローカルホスト名 (ループバックインタフェース) で呼び出されます。

      lgtst ユーティリティの失敗は、SAP Message Server の接続が正常に機能していないことを意味します。この場合、障害モニターは、この問題を部分的な障害とみなし、直ちに SAP の再起動やフェイルオーバーを引き起こすことはありません。次の条件が存在する場合、障害モニターは、2 つの部分的な障害を全面的な障害とみなします。

      1. 拡張プロパティ Check_ms_retry2 が設定されている場合。

      2. リソースプロパティ Retry_interval で設定された再試行期間内に 2 つの部分的な障害があった場合。

      全面的な障害が発生すると、リソースの障害履歴に応じてローカル再起動かフェイルオーバーが引き起こされます。

    3. 検証によるデータベース接続の状態 – 検証では、SAP 提供の R3trans ユーティリティを使って データベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。ただし、Sun Cluster HA for SAP は、高可用性なデータベースの障害検証に基づいて、データベースの可用性を判断します。データベース接続の状態検査で異常が検出されると、障害モニターは Database might be down というメッセージを /var/adm/messages に書き込みます。そして、SAP リソースの状態に DEGRADED を設定します。この後のデータベースの状態検査で接続が確立されると、障害モニターは Database is up というメッセージを /var/adm/messages に書き込み、SAP リソースの状態を OK に設定します。

  4. 障害履歴を評価します。

    障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。

    • アクションなし

    • ローカル再起動

    • フェイルオーバー

Sun Cluster HA for SAP 障害検証 (アプリケーションサーバー)

アプリケーションサーバーの障害検証では次の手順を実行します。

  1. 主ディスパッチャのプロセス ID を取得します。

  2. 無限にループします (Thorough_probe_interval の間スリープ)。

  3. SAP リソースの可用性を検査します。

    1. 異常終了 – Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。

    2. 検証機能による SAP リソースの可用性検査 – 検証機能は、ps(1) コマンドを使って SAP メッセージサーバーと主ディスパッチャのプロセスを検査します。SAP の主ディスパッチャプロセスがシステムのアクティブプロセスリストにないと、障害モニターはこの問題を全面的な障害とみなします。

    3. 検証によるデータベース接続の状態 – 検証では、SAP 提供の R3trans ユーティリティを使って データベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。ただし、Sun Cluster HA for SAP は、高可用性なデータベースの障害検証に基づいて、データベースの可用性を判断します。データベース接続の状態検査で異常が検出されると、障害モニターは Database might be down というメッセージを /var/adm/messages に書き込み、SAP リソースの状態を DEGRADED に設定します。この後のデータベースの状態検査で接続が確立されると、障害モニターは Database is up というメッセージを /var/adm/messages に書き込みます。SAP リソースのステータスに OK を設定します。

  4. 障害履歴を調べます。

    障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。

    • アクションなし

    • ローカル再起動

    • フェイルオーバー

      そのアプリケーションサーバーリソースがフェイルオーバーリソースであれば、障害モニターはアプリケーションサーバーをフェイルオーバーします。

      アプリケーションサーバーリソースがスケーラブルリソースの場合は、RGM が一定回数のローカル再起動を試みた後で、クラスタに別のノードがあればそのノードでアプリケーションサーバーを起動します。