Sun Cluster HA for SAP の障害検証 (セントラルインスタンス) (Sun Cluster 3.1 Data Service for SAP ガイド)

Sun Cluster 3.1 Data Service for SAP ガイド

Sun Cluster HA for SAP の障害検証 (セントラルインスタンス)

セントラルインスタンスの場合、障害検証の手順は次のとおりです。

SAP Message Server とディスパッチャのプロセス ID を取得します。
無限にループします (Thorough_probe_interval の間スリープ)。
SAP リソースの可用性を検査します。
1. 異常終了 – Process Monitor Facility (PMF) が SAP プロセスツリーの障害を検出すると、障害モニターはこの問題を全面的な障害とみなします。障害モニターは、SAP リソースの障害履歴に基づいて、このリソースを再起動するか、別のノードにフェイルオーバーします。
2. プローブによる SAP リソースの可用性チェック – プローブでは、ps(1) コマンドを使用して、SAP Message Server と主ディスパッチャのプロセスを検査します。SAP Message Server や主ディスパッチャのプロセスの中にシステムのアクティブプロセスリストにないものがあると、障害モニターは、この問題を全面的な障害とみなします。
  
  検証では、パラメータ Check_ms_retry に 0 より大きな値を設定すると、SAP Message Server の接続が検査されます。拡張プロパティ Lgtst_ms_with_logicalhostname にデフォルト値 TRUE を設定すると、lgtst ユーティリティーを使って SAP Message Server の接続がテストされます。検証では、SAP リソースグループに指定された論理ホスト名インタフェースを使って、SAP 提供の lgtst ユーティリティーが呼び出されます。拡張プロパティ Lgtst_ms_with_logicalhostname に TRUE 以外の値を設定すると、lgtst はノードのローカルホスト名 (ループバックインタフェース) で呼び出されます。
  
  lgtst ユーティリティの失敗は、SAP Message Server の接続が正常に機能していないことを意味します。この場合、障害モニターは、この問題を部分的な障害とみなし、直ちに SAP の再起動やフェイルオーバーを引き起こすことはありません。次の条件が存在する場合、障害モニターは、2 つの部分的な障害を全面的な障害とみなします。
  1. 拡張プロパティ Check_ms_retry に 2 が設定されている。
  2. リソースプロパティ Retry_interval で設定された再試行期間内に 2 つの部分的な障害があった。
  全面的な障害が発生すると、リソースの障害履歴に応じてローカル再起動かフェイルオーバーが引き起こされます。
3. 検証によるデータベース接続の状態 – 検証では、SAP 提供の R3trans ユーティリティーを使ってデータベース接続の状態を検査します。Sun Cluster HA for SAP の障害検証では、SAP がそのデータベースに接続できるかどうかが検査されます。ただし、Sun Cluster HA for SAP によるデータベースの可用性の判断は、高可用性のデータベース障害検証機能に大きく依存しています。データベース接続の状態検査で異常が検出されると、障害モニターは Database might be down というメッセージを /var/adm/messages に記録します。さらに、SAP リソースの状態として DEGRADED を設定します。プローブがデータベースの状態をもう一度検査し、接続が再確立されていると、障害モニターは Database is up というメッセージを /var/adm/messages に記録し、SAP リソースの状態を OK に設定します。
障害履歴を評価します。

障害モニターは、障害履歴に基づいて次のいずれかのアクションを行います。
- アクションなし
- ローカル再起動
- フェイルオーバー