Sun Cluster 3.0 5/02 補足情報

Sun Cluster HA for SAP 障害モニター

Sun Cluster HA for SAP 障害モニターは、SAP のプロセスやデータベースの状態を検査するためのものです。SAP プロセスの状態は SAP リソースの障害履歴に影響を及ぼします。さらに SAP リソースの障害履歴は、障害モニターのアクション (アクションなし、再起動、またはフェイルオーバー) を促します。

一方、SAP が使用するデータベースの状態は、SAP プロセスの状態とは異なり SAP リソースの障害履歴に影響を及ぼしません。ただし、SAP 障害モニターは、データベースの状態に基づいて、このデータベースを使用する SAP リソースのために syslog メッセージを書き込み、それに対応するステータスを設定します。

Sun Cluster HA for SAP 障害検証 (セントラルインスタンス)

セントラルインスタンスの障害検証では次の手順を実行します。

SAP Message Server とディスパッチャのプロセス ID を取得します。
無限にループします (Thorough_probe_interval の間スリープ)。
SAP リソースの状態を検査します。
1. 異常終了 - Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。
2. 検証による SAP リソースの状態検査 - 検証では、ps(1) コマンドを使って、SAP Message Server と主ディスパッチャのプロセスを検査します。SAP Message Server や主ディスパッチャのプロセスの中にシステムのアクティブプロセスリストにないものがあると、障害モニターは、この問題を全面的な障害とみなします。
  
  検証では、パラメータ Check_ms_retry に 0 より大きな値を設定すると、SAP Message Server の接続が検査されます。拡張プロパティ Lgtst_ms_with_logicalhostname にデフォルト値 TRUE を設定すると、lgtst ユーティリティを使って SAP Message Server の接続がテストされます。検証では、SAP リソースグループに指定された論理ホスト名インタフェースを使って、SAP 提供の lgtst ユーティリティが呼び出されます。拡張プロパティ Lgtst_ms_with_logicalhostname に TRUE 以外の値を設定すると、lgtst はノードのローカルホスト名 (ループバックインタフェース) で呼び出されます。
  
  lgtst ユーティリティの失敗は、SAP Message Server の接続が正常に機能していないことを意味します。この場合、障害モニターは、この問題を部分的な障害とみなし、直ちに SAP の再起動やフェイルオーバーを引き起こすことはありません。次の条件が存在する場合、障害モニターは、2 つの部分的な障害を全面的な障害とみなします。
  1. 拡張プロパティ Check_ms_retry に 2 が設定されている。
  2. リソースプロパティ Retry_interval で設定された再試行期間内に 2 つの部分的な障害があった。
  全面的な障害が発生すると、リソースの障害履歴に応じてローカル再起動かフェイルオーバーが引き起こされます。
3. 検証によるデータベース接続の状態 - 検証では、SAP 提供の R3trans ユーティリティを使ってデータベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。しかし、Sun Cluster HA for SAP は、高可用性データベース障害検証を通してデータベースの状態を検査する必要があります。障害モニターは、データベース接続のステータス検査に失敗すると、Database might be down というメッセージを syslog に書き込みます。そして、SAP リソースの状態に DEGRADED を設定します。この後のデータベースの状態検査で接続が確立されていると、障害モニターは、Database is up というメッセージを syslog に書き込み、SAP リソースの状態に OK を設定します。
障害履歴を評価します。

障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。
- アクションなし
- ローカル再起動
- フェイルオーバー

Sun Cluster HA for SAP 障害検証 (アプリケーションサーバー)

アプリケーションサーバーの障害検証では次の手順を実行します。

主ディスパッチャのプロセス ID を取得します。
無限にループします (Thorough_probe_interval の間スリープ)。
SAP リソースの状態を検査します。
1. 異常終了 - Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。
2. プローブによる SAP リソースの状態チェック - プローブでは、ps(1) コマンドを使って、SAP Message Server と主ディスパッチャのプロセスを検査します。SAP の主ディスパッチャプロセスがシステムのアクティブプロセスリストにないと、障害モニターはこの問題を全面的な障害とみなします。
3. 検証によるデータベース接続の状態 - 検証では、SAP 提供の R3trans ユーティリティを使ってデータベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。しかし、Sun Cluster HA for SAP は、高可用性データベース障害検証を通してデータベースの状態を検査する必要があります。障害モニターは、データベース接続状態の検査に失敗すると、Database might be down というメッセージを syslog に書き込み、SAP リソースの状態に DEGRADED を設定します。この後のデータベース状態の検査で接続が確立されていると、障害モニターは、Database is up というメッセージを syslog に書き込み、SAP リソースのステータスに OK を設定します。
障害履歴を評価します。

障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。
- アクションなし
- ローカル再起動
- フェイルオーバー
  
  そのアプリケーションサーバーリソースがフェイルオーバーリソースであれば、障害モニターはアプリケーションサーバーをフェイルオーバーします。
  
  アプリケーションサーバーリソースがスケーラブルリソースの場合は、RGM が一定回数のローカル再起動を試みた後で、クラスタに別のノードがあればそのノードでアプリケーションサーバーを起動します。