NFS システム障害監視プロセス (Sun Cluster Data Service for Network File System (NFS) ガイド (Solaris OS 版))

Sun Cluster Data Service for Network File System (NFS) ガイド (Solaris OS 版)

NFS システム障害監視プロセス

NFS システム障害モニターの検証機能は、ローカルノード上の NFS デーモン (nfsd、mountd、statd、lockd) と RPC ポートマッパーサービスデーモン (rpcbind) を監視します。この検証機能は、プロセスの存在と、NULL rpc 呼び出しに対するその応答を調べます。このモニターは、次の NFS 拡張プロパティーを使用します。

Rpcbind_nullrpc_timeout
Rpcbind_nullrpc_reboot
Statd_nullrpc_timeout
Lockd_nullrpc_timeout
Mountd_nullrpc_timeout
Mountd_nullrpc_restart
Nfsd_nullrpc_timeout
Nfsd_nullrpc_restart

「Sun Cluster HA for NFS 拡張プロパティーの設定」を参照してください。

各 NFS システム障害モニターの検証サイクルでは、次の作業が順に行われます。システムプロパティー Cheap_probe_interval は、検証の間隔を指定します。

障害モニターが rpcbind を検証します。

プロセスが不意に終了したが、デーモンのウォームリスタートが実行中の場合、rpcbind は引き続きほかのデーモンを検証します。

プロセスが不意に終了した場合、障害モニターはそのノードを再起動します。

デーモンに対する NULL rpc 呼び出しが不意に終了した場合 (Rpcbind_nullrpc_reboot =True、Failover_mode =HARD)、障害モニターはノードを再起動します。
障害モニターは、まず statd を検証し、続いて lockd を検証します。

statd または lockd が不意に終了した場合、システム障害モニターは両デーモンの再起動を試みます。

これらのデーモンに対する NULL rpc 呼び出しが不意に終了した場合、障害モニターは syslog にメッセージを記録しますが、statd や lockd を再起動しません。
障害モニターは、mountd を検証します。

mountd が不意に終了した場合、障害モニターはデーモンの再起動を試みます。

デーモンに対する NULL rpc 呼び出しが不意に終了し、 Mountd_nullrpc_restart= True の場合、クラスタファイルシステムが利用可能であれば、障害モニターは mountd の再起動を試みます。
障害モニターは、nfsd を検証します。

nfsd が不意に終了した場合、障害モニターはデーモンの再起動を試みます。

デーモンに対する NULL rpc 呼び出しが不意に終了し、Nfsd_nullrpc_restart=TRUE の場合、クラスタファイルシステムが利用可能であれば、障害モニターは nfsd の再起動を試みます。
rpcbind を除き、上記 NFS デーモンのうちいずれかが検証サイクル中の再起動に失敗した場合、NFS システム障害モニターは、次のサイクルの再開を再度試みます。すべての NFS デーモンが再起動され、状態が正常の場合には、リソースの状態は再び ONLINE に設定されます。モニターは、最後の Retry_interval での NFS デーモンの予期せぬ終了を追跡します。デーモンの予期せぬ終了の合計数が Retry_count に到達した場合、システム障害モニターは scha_control ギブオーバー (中止) を発行します。ギブオーバー呼び出しに失敗した場合、モニターは失敗した NFS デーモンの再起動を試みます。
各検証サイクルの最後で、すべてのデーモンが正常であれば、モニターは失敗の履歴を消去します。