Sun Cluster para el sistema operativo Solaris: Visión general

Alta disponibilidad real de las aplicaciones gracias a Sun Cluster

Un clúster son dos sistemas (o nodos) o más que trabajan conjuntamente como un único sistema permanentemente disponible, con el fin de proporcionar aplicaciones, recursos de sistemas y datos a los usuarios. Cada nodo de un clúster es un sistema autónomo completamente operativo. No obstante, en un entorno de clústers, los nodos están conectados mediante una interconexión y funcionan conjuntamente como una única entidad con el fin de proporcionar una disponibilidad y un rendimiento mejores.

La alta disponibilidad de los clústers proporciona un acceso casi continuo a los datos y aplicaciones, manteniendo al clúster en funcionamiento, aun en el caso de fallos que normalmente bloquearían un único servidor. Un único fallo en el hardware, en el software o en la red no harán que el clúster falle. Por contra, los sistemas de hardware tolerante a fallos proporcionan un acceso continuado a datos y aplicaciones, pero a un coste más elevado debido al uso de hardware especializado. Los sistemas tolerantes a fallos, normalmente, no preveen los fallos de software.

Cada sistema Sun Cluster es un conjunto de nodos perfectamente acoplados que proporcionan una única visión de la administración de los servicios de red y aplicaciones. El sistema Sun Cluster consigue una alta disponibilidad en la combinación del hardware y del software siguientes:

Los sistemas de discos redundantes proporcionan una mayor capacidad de almacenamiento. Estos sistemas de discos generalmente se duplican para permitir un funcionamiento ininterrumpido en el caso de que falle un disco o un subsistema. Las conexiones redundantes con los sistemas de discos aseguran que los datos no queden aislados en el caso de que falle un servidor, un controlador o un cable. Una interconexión de alta velocidad entre los nodos proporciona acceso a los recursos. Todos los nodos del clúster también están conectados con una red pública, lo que permite a los clientes de varias redes acceder al clúster.
Los componentes redundantes intercambiables en marcha, como las fuentes de alimentación y los sistemas de refrigeración, mejoran la disponibilidad, puesto que permiten a los sistemas continuar funcionando tras un error del hardware. Los componentes intercambiables en marcha proporcionan la posibilidad de añadir o suprimir componentes de hardware en un sistema en funcionamiento, sin bloquearlo.
La estructura de alta disponibilidad del software Sun Cluster detecta rápidamente un error en el nodo y migra la aplicación o servicio a otro nodo que se ejecute en un entorno idéntico. Siempre habrá alguna aplicación disponible. Las aplicaciones no se ven afectadas por un nodo bloqueado y están totalmente disponibles durante el proceso de recuperación. Además, las aplicaciones del nodo fallido vuelven a estar disponibles en cuanto se recuperan, de esta manera no tienen que esperar a que todas las demás aplicaciones terminen de recuperarse.

Gestión de disponibilidad

Una aplicación está realmente disponible si sobrevive a cualquier fallo (de software o hardware) que se produzca en el sistema. Se excluyen los fallos provocados por errores o por el deterioro de datos en la propia aplicación. La información siguiente se aplica a las aplicaciones altamente disponibles:

La recuperación es transparente a partir de las aplicaciones que utilizan un recurso.
El acceso a los recursos está totalmente garantizado durante el error de un nodo.
Las aplicaciones no pueden detectar si el nodo de alojamiento se ha movido a otro.
El error de un único nodo es completamente transparente para los programas en los nodos restantes que utilicen los archivos, los dispositivos y los volúmenes de discos acoplados a este nodo.

Recuperación de fallos, servicios escalables y aplicaciones paralelas

La recuperación de fallos, los servicios escalables y las aplicaciones paralelas permiten conseguir que las aplicaciones estén realmente disponibles y mejoran el rendimiento de una aplicación en un clúster.

Un servicio de recuperación de fallos proporciona una alta disponibilidad gracias a la redundancia. Cuando se produce un fallo, se puede configurar una aplicación que se esté ejecutando para reiniciarla en el mismo nodo o para moverla a otro nodo del clúster, sin la intervención del usuario.

Si desea aumentar el rendimiento, un servicio escalable integra a los diferentes nodos de un clúster para ejecutar una aplicación al mismo tiempo. En una configuración escalable, todos los nodos del clúster pueden proporcionar datos y procesar peticiones de los clientes.

Las bases de datos parelelas permiten que varias instancias del servidor de la base de datos:

Participen en el clúster
Manejen simultáneamente varias consultas en la misma base de datos
Proporcionen la posibilidad de efectuar consultas paralelas en las grandes consultas

Si desea obtener más información sobre los servicios escalables y de recuperación de fallos y las aplicacionas paralelas, consulte Tipos de servicios de datos.

Ruta múltiple de red IP

Los clientes hacen peticiones de datos al clúster a través de la red pública. Cada nodo del clúster está conectado como mínimo a una red pública a través de uno o varios adaptadores.

Ruta múltiple de red IP permite a un servidor disponer de varios puertos de red conectados con la misma subred. En primer lugar, el software Ruta múltiple de red IP proporciona capacidad de recuperación a partir de fallos en los adaptadores de red mediante la detección del fallo o la reparación de un adaptador de red, a continuación, conmuta simultáneamente la dirección de la red con y desde un adaptador alternativo. Si hay operativo más de un adaptador de red, Ruta múltiple de red IP aumenta el caudal de datos distribuyendo los paquetes de salida entre los adaptadores.

Gestión del almacenamiento

El almacenamiento multisistema consigue que los discos estén realmente disponibles mediante la conexión de los discos con varios nodos los cuales permiten que haya diferentes rutas para acceder a los datos; si una de éstas falla habrá otra disponible para ocupar su lugar.

Los discos multisistema permiten los procesos de clústers siguientes:

Tolerar los fallos en un único nodo.
Centralizar los datos de las aplicaciones, los archivos binarios de las aplicaciones y los archivos de configuración.
Conseguir la protección frente a los fallos en los nodos. Si las peticiones de los clientes están accediendo a datos a través de un nodo que falla, se desvían para usar otro nodo que tenga una conexión directa con los mismos discos.
Proporcionar acceso globalmente a través de un nodo principal que “controle” los discos o mediante acceso directo simultáneo a través de las rutas locales.

Compatibilidad con la gestión de volúmenes

Un gestor de volúmenes permite gestionar un gran número de discos y los datos que éstos contienen. Los gestores de volúmenes pueden aumentar la capacidad de almacenamiento y la disponibilidad de los datos mediante estas funciones:

Concatenación y reparto en bandas de las unidades de discos
Duplicación de discos
Sustitución de unidades de discos en marcha
Gestión de los errores de los discos y la sustitución de éstos

Los sistemas Sun Cluster admiten los gestores de volúmenes siguientes:

Solaris Volume Manager
VERITAS Volume Manager

Sun StorEdge Traffic Manager

El software Sun StorEdge Traffic Manager está completamente integrado a partir de la estructura E/S central de Sistema operativo Solaris 8; permite representar y gestionar de manera más efectiva recursos, accesibles a través de varias interfaces de controladores E/S en una única instancia del entorno operativo Solaris. La arquitectura de Sun StorEdge Traffic Manager permite:

Protección frente a las interrupciones de E/S debidas a fallos en los controladores de E/S
Conmutación automática con un controlador alternativo tras un fallo del controlador de E/S
Rendimiento mejorado de E/S, equilibrando para ello la carga en varios canales de E/S

Admisión de una matriz redundante de hardware de discos independientes

Los sistemas Sun Cluster admiten el uso de una Matriz redundante de hardware de discos independientes (RAID) y de software RAID basado en el sistema. El hardware RAID usa la redundancia de hardware del sistema de almacenamiento o de la matriz de almacenamiento para asegurarse de que los fallos del hardware independiente no tengan consecuencias sobre la disponibilidad de los datos. Si efectúa una duplicación en matrices de discos separadas, el software RAID basado en el sistema garantiza que los fallos del hardware independiente no repercutan en la disponibilidad de los datos si una matriz de almacenamiento completa queda fuera de línea. Aunque pueda usar el hardware RAID y el software RAID basado en sistemas, sólo necesita una solución RAID para mantener un alto grado de disponibilidad de los datos.

Admisión de sistemas de archivos

Puesto que una de las propiedades inherentes a los sistemas de un clúster es la de compartir recursos, éste necesita un sistema de archivos que controle que la necesidad de archivos se comparta de manera equitativa. El sistema de archivos de Sun Cluster permite a los usuarios o a las aplicaciones acceder a un archivo de un nodo del clúster, mediante las API estándar de UNIX remotas o locales. Si una aplicación se traslada de un nodo a otro, no se necesita ningún cambio en la aplicación para acceder a los mismos archivos. No se necesitan cambios en las aplicaciones para utilizar el sistema de archivos del clúster.