Sun Cluster: Guía de conceptos para SO Solaris

FAQ sobre alta disponibilidad

¿Qué es exactamente un sistema de alta disponibilidad?

El sistema SunPlex define la alta disponibilidad (HA) como la posibilidad del clúster de mantener en marcha una aplicación aunque se produzca un fallo que en condiciones normales provocaría que el servidor no estuviera disponible.
¿Cuál es el proceso por el que el clúster proporciona alta disponibilidad?

A través de un proceso conocido como recuperación de fallos, la estructura del clúster proporciona un entorno de alta disponibilidad. Recuperación de fallos es una serie de pasos que realiza el clúster para migrar recursos de servicios de datos de un nodo fallido a otro operativo dentro del clúster.

¿Cuál es la diferencia entre un servicio de datos a prueba de fallos y otro escalable?

Existen dos tipos de servicios de datos de alta disponibilidad, a prueba de fallos y escalable.

Un servicio de datos a prueba de fallos ejecuta una aplicación sólo en un nodo primario del clúster cada vez. Los demás nodos pueden ejecutar otras aplicaciones, pero cada una se ejecuta sólo en un nodo. Si un nodo primario falla, las aplicaciones que se ejecutan en este nodo se trasladan a otro nodo y continúan ejecutándose.

Un servicio escalable reparte una aplicación entre varios nodos para crear un servicio lógico único que aprovecha el número de nodos y procesadores de todo el clúster en el que se ejecutan.

Para cada aplicación un nodo aloja la interfaz física para el clúster. Este nodo se denomina interfaz global (GIF). Pueden haber varios nodos GIF en el clúster. Cada uno de ellos aloja una o más interfaces lógicas que pueden usar los servicios escalables y que reciben el nombre de interfaces globales. Un nodo GIF aloja una interfaz global para todas las solicitudes hacia una aplicación en particular y las despacha a los distintos nodos en los que se esté ejecutando el servidor de la aplicación. Si el nodo GIF falla, la interfaz global se traslada a un nodo superviviente.

Si falla alguno de los nodos en los que se está ejecutando la aplicación, ésta continúa ejecutándose en los demás nodos con alguna pérdida de rendimiento hasta que el nodo fallido vuelve al clúster.