Mécanisme failfast (Guide des notions fondamentales de Sun Cluster pour SE Solaris)

Guide des notions fondamentales de Sun Cluster pour SE Solaris

Mécanisme failfast

Si le MAC détecte un problème critique sur un nœud, il fait appel à la structure du cluster pour arrêter le nœud de force (panique) et le supprimer de l’appartenance au cluster. Le mécanisme par lequel ce processus intervient est appelé failfast. Il provoque l'arrêt d'un nœud de deux manières.

Si un nœud quitte le cluster puis tente de démarrer un nouveau cluster sans avoir de quorum, on le « sépare » pour l'empêcher d'accéder aux disques partagés. Reportez-vous à la rubrique À propos de la séparation en cas d'échec pour de plus amples informations sur l'utilisation du mécanisme failfast.
Si un ou plusieurs démons spécifiques au cluster meurent (clexecd , rpc.pmfd, rgmd ou rpc.ed), la panne est détectée par le MAC et le nœud panique.

Lorsque la mort d’un démon du cluster entraîne la panique d'un nœud, un message similaire à celui-ci s'affiche sur la console pour ce nœud.

panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

Après la panique, le nœud peut soit se réinitialiser et tenter de rejoindre le cluster, soit rester sur l'invite de la PROM OpenBoot^TM (OBP) si le cluster est constitué de systèmes SPARC. L'action entreprise est déterminée par la définition du paramètre auto-boot?. Vous pouvez définir auto-boot? avec eeprom(1M), à l'invite ok de la PROM OpenBoot.