Sun Cluster 3.0 U1 データサービスのインストールと構成

Sun Cluster HA for NFS の障害モニター

Sun Cluster HA for NFS の障害モニターは、次の2 つの部分から成ります。

障害モニターの起動

NFS システム障害モニターは、NFS リソースの起動メソッドによって起動されます。この起動メソッドは、最初に NFS システム障害モニター (nfs_daemons_probe) がプロセスモニター pmfadm 下ですでに実行されているかどうかを調べます。実行されていない場合は、起動メソッドは、プロセスモニターの制御下で nfs_daemons_probe プロセスを起動します。その後、同様に、プロセスモニターの制御下でリソース障害モニター (nfs_probe) を起動します。

障害モニターの停止

NFS リソースの Monitor_stop メソッドは、リソース障害モニターを停止します。また、ローカルノード上で他に NFS リソース障害モニターが実行されていない場合は、NFS システム障害モニターも停止します。

NFS システム障害モニタープロセス

システム障害モニターは、プロセスの存在および NULL rpc 呼び出しへの応答を調べることで、rpcbindstatdlockdnfsdmountd を検証します。このモニターは、次の NFS 拡張プロパティを使用します。

Rpcbind_nullrpc_timeoutLockd_nullrpc_timeout
Nfsd_nullrpc_timeoutRpcbind_nullrpc_reboot
Mountd_nullrpc_timeoutNfsd_nullrpc_restart

Statd_nullrpc_timeout

Mountd_nullrpc_restart

拡張プロパティの検討や設定については、「Sun Cluster HA for NFS 拡張プロパティの構成」を参照してください。

各システム障害モニターの検証サイクルにおいて、次のことを行います。

  1. Cheap_probe_interval の間、休止します。

  2. rpcbind を検証します。

    プロセスが異常停止しており、Failover_mode=HARD の場合は、システムを再起動します。

    NULL rpc 呼び出しに失敗し、Rpcbind_nullrpc_reboot=True および Failover_mode=HARD の場合は、システムを再起動します。

  3. statdlockd を検証します。

    いずれかのデーモンが停止している場合は、両方のデーモンを再起動します。

    NULL rpc 呼び出しに失敗した場合は、メッセージが syslog に記録されますが、再起動はしません。

  4. mountdmountd を検証します。

    プロセスが停止している場合は、そのプロセスを再起動します。

    NULL rpc 呼び出しに失敗し、クラスタファイルシステムデバイスが利用可能で拡張プロパティ Mountd_nullrpc_restart=True の場合は、mountd を再起動します。

NFS デーモンのうち、いずれかのデーモンの再起動に失敗すると、すべてのオンライン NFS リソースの状態が FAULTED に設定されます。すべての NFS デーモンが再起動され、状態が正常の場合には、リソースの状態は再び ONLINE に設定されます。

NFS リソースモニタープロセス

リソースモニター検証を開始する前に、すべての共有パスが dfstab ファイルから読み取られ、メモリーに格納されます。各検証サイクルでは、パスの stat() を実行することで、各繰り返しですべての共有パスが検証されます。

各リソースモニターの障害検証において、次のことを行います。

  1. Thorough_probe_interval の間、休止します。

  2. 最後の読み取り以降に dfstab が変更されている場合は、メモリーをリフレッシュします。

  3. パスの stat() を実行することで、すべての共有パスを各繰り返しで検証します。

問題のあるパスが見つかると、リソースの状態は FAULTED に設定されます。すべてのパスが正常に動作すると、リソースの状態は再び ONLINE になります。