Sun Cluster 3.1: Guía de conceptos

Supervisor de pertenencia al clúster (CMM)

El Supervisor de pertenencia al clúster es un conjunto distribuido de agentes, uno por miembro del clúster, que intercambian mensajes por la interconexión del clúster para:

A diferencia de anteriores versiones del software Sun Cluster, CMM se ejecuta completamente en el núcleo.

Pertenencia al clúster

La función principal de CMM es establecer acuerdos a nivel del clúster sobre el conjunto de nodos que participan en éste en todo momento. Esta limitación se denomina pertenencia al clúster.

Para determinar la pertenencia al clúster y, por tanto, asegurar la integridad de los datos, CMM:

Consulte Quórum y dispositivos del quórum para obtener más información sobre cómo se protege el clúster de particionarse en varios clústers independientes.

Reconfiguración del supervisor de pertenencia al clúster

Para asegurarse de que los datos permanezcan incorruptos, todos los nodos deben alcanzar un acuerdo uniforme sobre la pertenencia al clúster. Cuando es necesario, CMM coordina una reconfiguración de los servicios del clúster (aplicaciones) en respuesta a un fallo.

CMM recibe información sobre conectividad con otros nodos desde la capa de transporte del clúster. CMM usa la interconexión del clúster para intercambiar información de estado durante la reconfiguración.

Después de detectar un cambio en la composición del clúster, CMM lleva a cabo una configuración sincronizada del clúster en que los recursos de éste podrían redistribuirse de acuerdo con la nueva composición.

Mecanismo de recuperación rápida

Si CMM detecta un problema crítico en un nodo, envía una señal a través de la estructura del clúster para forzar su apagado (pánico) y así retirar su pertenencia al clúster. El mecanismo por el que ello ocurre se denomina recuperación rápida. Éste obliga a un nodo a apagarse de dos formas.

Cuando la desaparición de un daemon del clúster hace que un nodo entre en pánico, aparecerá un mensaje parecido a éste en la consola de ese nodo.


panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

Después de la condición de pánico, el nodo podría rearrancar e intentar volverse a unir al clúster o permanecer en el indicador OpenBootTM PROM (OBP). La acción que se toma depende del valor del parámetro auto-boot? en la OBP.