NFS システム障害モニターは、 プロセスの存在および NULL rpc 呼び出しに対する応答を調べることで、ローカルノード上で rpcbind、statd、lockd、nfsd、および mountd を検証します。 このモニターは、次の NFS 拡張プロパティを使用します。
Rpcbind_nullrpc_timeout | Lockd_nullrpc_timeout |
Nfsd_nullrpc_timeout | Rpcbind_nullrpc_reboot |
Mountd_nullrpc_timeout | Nfsd_nullrpc_restart |
Statd_nullrpc_timeout |
Mountd_nullrpc_restart |
拡張プロパティの検討や設定については、Sun Cluster HA for NFS 拡張プロパティの構成を参照してください。
各システム障害モニターの検証サイクルでは、次の作業が順に行われます。
Cheap_probe_interval の間、休止します。
rpcbind を検証します。
プロセスが不意に終了したが、デーモンのウォームリスタートが実行中の場合、rpcbind は引き続きほかのデーモンを検証します。
プロセスが不意に終了した場合、障害モニターはそのノードを再起動します。
デーモンに対するナル rpc 呼び出しが不意に終了し、 Rpcbind_nullrpc_reboot=True、 Failover_mode=HARD の場合、障害モニターはノードを再起動します。
最初に statd を検証し、次に lockd を検証します。
statd または lockd が不意に終了した場合、システム障害モニターは両デーモンの再起動を試みます。
これらのデーモンに対するナル rpc 呼び出しが不意に終了した場合、障害モニターは syslog にメッセージを記録しますが、statd や lockd を再起動しません。
mountd を検証します。
mountd が不意に終了した場合、障害モニターはデーモンの再起動を試みます。
デーモンに対するナル rpc 呼び出しが不意に終了し、 Mountd_nullrpc_restart= True の場合、クラスタファイルシステムが利用可能であれば、障害モニターは mountd の再起動を試みます。
nfsd を検証します。
nfsd が不意に終了した場合、障害モニターはデーモンの再起動を試みます。
デーモンに対するナル rpc 呼び出しが不意に終了し、Nfsd_nullrpc_restart=TRUE の場合、クラスタファイルシステムが利用可能であれば、障害モニターは nfsd の再起動を試みます。
rpcbind を除き、上記 NFS デーモンのうちいずれかが検証サイクル中の再起動に失敗した場合、NFS システム障害モニターは、次のサイクルの再開を再度試みます。 すべての NFS デーモンが再起動され、状態が正常の場合には、リソースの状態は再び ONLINE に設定されます。 モニターは、最後の Retry_interval での NFS デーモンの予期せぬ終了を追跡します。 デーモンの予期せぬ終了の合計数が、 Retry_count に到達した場合、システム障害モニターは scha_control ギブオーバー (中止) を発行します。 ギブオーバー呼び出しに失敗した場合、モニターは失敗した NFS デーモンの再起動を試みます。
各検証サイクルの最後で、すべてのデーモンが正常であれば、モニターは失敗の履歴を消去します。