Sun Cluster para el sistema operativo Solaris: Visión general

Capítulo 1 Introducción a Sun Cluster

El sistema SunPlex es una solución integrada de hardware y software de Sun Cluster que se utiliza para crear servicios de alta disponibilidad y escalabilidad. Este capítulo proporciona una visión general muy aclaratoria sobre las funciones de Sun Cluster.

Este capítulo se divide en los siguientes apartados:

Alta disponibilidad real de las aplicaciones gracias a Sun Cluster

Un clúster son dos sistemas (o nodos) o más que trabajan conjuntamente como un único sistema permanentemente disponible, con el fin de proporcionar aplicaciones, recursos de sistemas y datos a los usuarios. Cada nodo de un clúster es un sistema autónomo completamente operativo. No obstante, en un entorno de clústers, los nodos están conectados mediante una interconexión y funcionan conjuntamente como una única entidad con el fin de proporcionar una disponibilidad y un rendimiento mejores.

La alta disponibilidad de los clústers proporciona un acceso casi continuo a los datos y aplicaciones, manteniendo al clúster en funcionamiento, aun en el caso de fallos que normalmente bloquearían un único servidor. Un único fallo en el hardware, en el software o en la red no harán que el clúster falle. Por contra, los sistemas de hardware tolerante a fallos proporcionan un acceso continuado a datos y aplicaciones, pero a un coste más elevado debido al uso de hardware especializado. Los sistemas tolerantes a fallos, normalmente, no preveen los fallos de software.

Cada sistema Sun Cluster es un conjunto de nodos perfectamente acoplados que proporcionan una única visión de la administración de los servicios de red y aplicaciones. El sistema Sun Cluster consigue una alta disponibilidad en la combinación del hardware y del software siguientes:

Los sistemas de discos redundantes proporcionan una mayor capacidad de almacenamiento. Estos sistemas de discos generalmente se duplican para permitir un funcionamiento ininterrumpido en el caso de que falle un disco o un subsistema. Las conexiones redundantes con los sistemas de discos aseguran que los datos no queden aislados en el caso de que falle un servidor, un controlador o un cable. Una interconexión de alta velocidad entre los nodos proporciona acceso a los recursos. Todos los nodos del clúster también están conectados con una red pública, lo que permite a los clientes de varias redes acceder al clúster.
Los componentes redundantes intercambiables en marcha, como las fuentes de alimentación y los sistemas de refrigeración, mejoran la disponibilidad, puesto que permiten a los sistemas continuar funcionando tras un error del hardware. Los componentes intercambiables en marcha proporcionan la posibilidad de añadir o suprimir componentes de hardware en un sistema en funcionamiento, sin bloquearlo.
La estructura de alta disponibilidad del software Sun Cluster detecta rápidamente un error en el nodo y migra la aplicación o servicio a otro nodo que se ejecute en un entorno idéntico. Siempre habrá alguna aplicación disponible. Las aplicaciones no se ven afectadas por un nodo bloqueado y están totalmente disponibles durante el proceso de recuperación. Además, las aplicaciones del nodo fallido vuelven a estar disponibles en cuanto se recuperan, de esta manera no tienen que esperar a que todas las demás aplicaciones terminen de recuperarse.

Gestión de disponibilidad

Una aplicación está realmente disponible si sobrevive a cualquier fallo (de software o hardware) que se produzca en el sistema. Se excluyen los fallos provocados por errores o por el deterioro de datos en la propia aplicación. La información siguiente se aplica a las aplicaciones altamente disponibles:

La recuperación es transparente a partir de las aplicaciones que utilizan un recurso.
El acceso a los recursos está totalmente garantizado durante el error de un nodo.
Las aplicaciones no pueden detectar si el nodo de alojamiento se ha movido a otro.
El error de un único nodo es completamente transparente para los programas en los nodos restantes que utilicen los archivos, los dispositivos y los volúmenes de discos acoplados a este nodo.

Recuperación de fallos, servicios escalables y aplicaciones paralelas

La recuperación de fallos, los servicios escalables y las aplicaciones paralelas permiten conseguir que las aplicaciones estén realmente disponibles y mejoran el rendimiento de una aplicación en un clúster.

Un servicio de recuperación de fallos proporciona una alta disponibilidad gracias a la redundancia. Cuando se produce un fallo, se puede configurar una aplicación que se esté ejecutando para reiniciarla en el mismo nodo o para moverla a otro nodo del clúster, sin la intervención del usuario.

Si desea aumentar el rendimiento, un servicio escalable integra a los diferentes nodos de un clúster para ejecutar una aplicación al mismo tiempo. En una configuración escalable, todos los nodos del clúster pueden proporcionar datos y procesar peticiones de los clientes.

Las bases de datos parelelas permiten que varias instancias del servidor de la base de datos:

Participen en el clúster
Manejen simultáneamente varias consultas en la misma base de datos
Proporcionen la posibilidad de efectuar consultas paralelas en las grandes consultas

Si desea obtener más información sobre los servicios escalables y de recuperación de fallos y las aplicacionas paralelas, consulte Tipos de servicios de datos.

Ruta múltiple de red IP

Los clientes hacen peticiones de datos al clúster a través de la red pública. Cada nodo del clúster está conectado como mínimo a una red pública a través de uno o varios adaptadores.

Ruta múltiple de red IP permite a un servidor disponer de varios puertos de red conectados con la misma subred. En primer lugar, el software Ruta múltiple de red IP proporciona capacidad de recuperación a partir de fallos en los adaptadores de red mediante la detección del fallo o la reparación de un adaptador de red, a continuación, conmuta simultáneamente la dirección de la red con y desde un adaptador alternativo. Si hay operativo más de un adaptador de red, Ruta múltiple de red IP aumenta el caudal de datos distribuyendo los paquetes de salida entre los adaptadores.

Gestión del almacenamiento

El almacenamiento multisistema consigue que los discos estén realmente disponibles mediante la conexión de los discos con varios nodos los cuales permiten que haya diferentes rutas para acceder a los datos; si una de éstas falla habrá otra disponible para ocupar su lugar.

Los discos multisistema permiten los procesos de clústers siguientes:

Tolerar los fallos en un único nodo.
Centralizar los datos de las aplicaciones, los archivos binarios de las aplicaciones y los archivos de configuración.
Conseguir la protección frente a los fallos en los nodos. Si las peticiones de los clientes están accediendo a datos a través de un nodo que falla, se desvían para usar otro nodo que tenga una conexión directa con los mismos discos.
Proporcionar acceso globalmente a través de un nodo principal que “controle” los discos o mediante acceso directo simultáneo a través de las rutas locales.

Compatibilidad con la gestión de volúmenes

Un gestor de volúmenes permite gestionar un gran número de discos y los datos que éstos contienen. Los gestores de volúmenes pueden aumentar la capacidad de almacenamiento y la disponibilidad de los datos mediante estas funciones:

Concatenación y reparto en bandas de las unidades de discos
Duplicación de discos
Sustitución de unidades de discos en marcha
Gestión de los errores de los discos y la sustitución de éstos

Los sistemas Sun Cluster admiten los gestores de volúmenes siguientes:

Solaris Volume Manager
VERITAS Volume Manager

Sun StorEdge Traffic Manager

El software Sun StorEdge Traffic Manager está completamente integrado a partir de la estructura E/S central de Sistema operativo Solaris 8; permite representar y gestionar de manera más efectiva recursos, accesibles a través de varias interfaces de controladores E/S en una única instancia del entorno operativo Solaris. La arquitectura de Sun StorEdge Traffic Manager permite:

Protección frente a las interrupciones de E/S debidas a fallos en los controladores de E/S
Conmutación automática con un controlador alternativo tras un fallo del controlador de E/S
Rendimiento mejorado de E/S, equilibrando para ello la carga en varios canales de E/S

Admisión de una matriz redundante de hardware de discos independientes

Los sistemas Sun Cluster admiten el uso de una Matriz redundante de hardware de discos independientes (RAID) y de software RAID basado en el sistema. El hardware RAID usa la redundancia de hardware del sistema de almacenamiento o de la matriz de almacenamiento para asegurarse de que los fallos del hardware independiente no tengan consecuencias sobre la disponibilidad de los datos. Si efectúa una duplicación en matrices de discos separadas, el software RAID basado en el sistema garantiza que los fallos del hardware independiente no repercutan en la disponibilidad de los datos si una matriz de almacenamiento completa queda fuera de línea. Aunque pueda usar el hardware RAID y el software RAID basado en sistemas, sólo necesita una solución RAID para mantener un alto grado de disponibilidad de los datos.

Admisión de sistemas de archivos

Puesto que una de las propiedades inherentes a los sistemas de un clúster es la de compartir recursos, éste necesita un sistema de archivos que controle que la necesidad de archivos se comparta de manera equitativa. El sistema de archivos de Sun Cluster permite a los usuarios o a las aplicaciones acceder a un archivo de un nodo del clúster, mediante las API estándar de UNIX remotas o locales. Si una aplicación se traslada de un nodo a otro, no se necesita ningún cambio en la aplicación para acceder a los mismos archivos. No se necesitan cambios en las aplicaciones para utilizar el sistema de archivos del clúster.

Supervisión de fallos

El sistema Sun Cluster consigue que la ruta entre los usuarios y los datos esté completamente disponible mediante los discos multisistema, la ruta múltiple y un sistema de archivos global. El sistema Sun Cluster supervisa los fallos de:

Aplicaciones: la mayoría de los servicios de datos de Sun Cluster proporcionan un supervisor de fallos que regularmente comprueba los servicios de datos, con el fin de determinar su estado. Un supervisor de fallos comprueba que los daemons de la aplicación se estén ejecutando y que los clientes estén atendidos. Según la información que devuelvan los análisis, se puede iniciar una acción predefinida como el reinicio de los daemons o una recuperación de fallos.
Rutas de discos: Sun Cluster admite la supervisión de rutas de discos (DPM) que mejora la fiabilidad general de la recuperación de fallos y la conmutación informando del fallo de una ruta de discos secundaria.
Protocolo de Internet (IP) de ruta múltiple: el software de ruta múltiple de la red IP de Solaris de los sistemas Sun Cluster proporciona el mecanismo básico para la supervisión de adaptadores de red pública. La ruta múltiple IP también premite la recuperación de fallos de direcciones IP desde un adaptador a otro si se detecta un fallo.

Herramientas de configuración y de administración

El sistema Sun Cluster se puede instalar, configurar y administrar mediante las interfaces SunPlex Manager o de la línea de órdenes (CLI).

El sistema Sun Cluster también dispone de un módulo que se ejecuta como parte del software Sun Management Center que proporciona una interfaz gráfica de usuario (GUI) para ciertas tareas del clúster.

SunPlex Manager

SunPlex Manager es una herramienta basada en el navegador para administrar sistemas Sun Cluster. El sistema SunPlex Manager permite a los administradores efectuar la supervisión y la gestión del sistema, la instalación del software y la configuración del sistema.

El software SunPlex Manager tiene las funciones siguientes.

Mecanismos de autorización y de seguridad incorporada
Compatibilidad con Secure Sockets Layer (SSL, capa de zócalos protegidos)
Control de acceso basado en el rol (RBAC)
Módulo de autenticación conectable (PAM)
Recursos de administración de grupos de ruta múltiple de la red IP y NAFO
Administración de dispositivos del quórum, transportes, dispositivos de almacenamiento compartido y grupos de recursos
Avanzada comprobación de errores y detección automática de interconexiones privadas

Interfaz de línea de órdenes

La interfaz de línea de órdenes de Sun Cluster es un conjunto de utilidades que permiten instalar y administrar los sistemas Sun Cluster, así como administrar la parte del gestor de volúmenes del software Sun Cluster.

La interfaz de línea de órdenes de Sun Cluster permite efectuar las siguientes tareas de administración de SunPlex:

Validar una configuración de Sun Cluster
Instalar y configurar Sun Cluster
Actualizar una configuración de Sun Cluster
Gestionar el registro de los tipos de recursos, crear grupos de recursos y activar recursos dentro de un grupo de recursos.
Cambiar el dominio del nodo, el estado de los grupos de recursos y los grupos de dispositivos de discos
Controlar el acceso mediante el Control de acceso basado en el rol (RBAC)
Apagar todo el clúster

Sun Management Center

El sistema Sun Cluster también cuenta con un módulo que se ejecuta como parte del software Sun Management Center. El clúster se basa en éste para realizar las funciones de administración y supervisión. Las siguientes tareas se pueden efectuar a través de una interfaz de línea de órdenes (CLI) o una interfaz gráfica de usuario (GUI):

Configurar un sistema remoto
Supervisar el rendimiento
Detectar y aislar los errores de hardware y de software

También es posible utilizar el software Sun Management Center como interfaz para gestionar la reconfiguración dinámica en los servidores de Sun Cluster. Ésta incluye la creación de dominios, la conexión de tarjetas dinámicas y la desconexión dinámica.

Control de acceso basado en el rol

En los sistemas UNIX convencionales el usuario root, también conocido como superusuario, es omnipotente: puede leer y guardar datos en cualquier archivo, ejecutar todos los programas y enviar señales de finalización a cualquier proceso. El control de acceso basado en el rol (RBAC) de Solaris es una alternativa al modelo de superusuario “todo o nada”; usa el principio de seguridad del privilegio mínimo, según el cual ningún usuario debe recibir más privilegios que los necesarios para llevar a cabo su trabajo.

RBAC permite a una organización distribuir y empaquetar los permisos o derechos del superusuario en funciones o cuentas especiales de usuario que se pueden asignar a individuos determinados, de esta manera se pueden establecer diferentes normas de seguridad. Las cuentas se pueden configurar para administradores con funciones especiales en áreas como la seguridad, el trabajo en red, los cortafuegos, las copias de seguridad y el funcionamiento del sistema.