Alta Disponibilidad

Private Cloud Appliance está diseñado para eliminar puntos de fallo únicos, lo que permite que el sistema y las cargas de trabajo alojadas permanezcan operativas en caso de fallos de hardware o software, y durante las actualizaciones y operaciones de mantenimiento.

La redundancia está integrada en la arquitectura en todos los niveles: hardware, software de controlador, base de datos maestra, servicios, etc. Funciones como la copia de seguridad, las solicitudes de servicio automatizadas y la recuperación ante desastres opcional mejoran aún más la facilidad de mantenimiento y la continuidad del servicio del sistema.

Redundancia de hardware

La configuración mínima de bastidor base contiene componentes redundantes de red, almacenamiento y servidor para garantizar que el fallo de un solo elemento no afecte a la disponibilidad general del sistema.

La conectividad de datos en todo el sistema se basa en pares redundantes de conmutadores de hoja y columna vertebral. La agregación de enlaces se configura en todas las interfaces: puertos de conmutador, NIC de host y enlaces ascendentes. Los conmutadores de hoja interconectan los componentes del rack mediante cableado cruzado con interfaces de red redundantes en cada componente. Cada switch de interconexión de módulos también tiene una conexión con cada uno de los switches de interconexión de racks, que también están interconectados. Los switches de interconexión de racks forman la columna vertebral de la red y activan el tráfico externo al rack. Sus enlaces ascendentes a la red del centro de datos constan de dos pares de cables, que se conectan entre sí a dos conmutadores redundantes ToR (parte superior del bastidor).

El cluster de gestión, que ejecuta el software del controlador y los servicios de nivel de sistema, consta de tres nodos de gestión totalmente activos. Las solicitudes entrantes pasan por la IP virtual del cluster de nodos de gestión y las distribuye un equilibrador de carga entre los tres nodos. Si uno de los nodos deja de responder y se aleja del cluster, el equilibrador de carga sigue enviando tráfico a los dos nodos restantes hasta que el nodo con fallos vuelva a estar en buen estado y se vuelva a unir al cluster.

El almacenamiento del sistema y de los recursos en la nube del entorno lo proporciona el dispositivo ZFS Storage Appliance interno. Sus dos controladores forman un cluster activo-activo, lo que proporciona alta disponibilidad y un excelente rendimiento al mismo tiempo. Las agrupaciones ZFS se crean en discos en una configuración reflejada para obtener la mejor protección de datos. Esto se aplica a la bandeja de disco de alta capacidad estándar, así como a una bandeja opcional de alto rendimiento basada en SSD.

Disponibilidad del Sistema

La capa de software y servicios se despliega en el cluster de gestión de tres nodos y aprovecha la alta disponibilidad que es inherente al diseño del cluster. El entorno de orquestación de contenedores de Kubernetes también utiliza la agrupación en clusters para sus propios nodos de controlador y los pods de servicio que aloja. Varias réplicas de los microservicios se están ejecutando en un momento determinado. Los nodos y los pods se distribuyen entre los nodos de gestión, y Kubernetes garantiza que los pods con fallos se reemplacen por nuevas instancias para mantener todos los servicios en ejecución en una configuración activa/activa.

Todos los servicios y componentes almacenan datos en una base de datos de cluster central MySQL común, de la que las instancias se despliegan en los tres nodos de gestión. La disponibilidad, el equilibrio de carga, la sincronización de datos y la agrupación en clusters se controlan mediante componentes internos del cluster MySQL.

Una parte importante de la red de infraestructura a nivel de sistema está definida por software. La configuración de conmutadores virtuales, enrutadores y gateways no se almacena ni gestiona mediante los conmutadores, sino que se distribuye entre varios componentes de la arquitectura de red. El controlador de red se implementa como un servicio en contenedores de alta disponibilidad.

El marco de actualización aprovecha la redundancia de hardware y los diseños agrupados en clusters para proporcionar actualizaciones sucesivas para todos los componentes. Durante el cambio de versión de una instancia de componente, las instancias restantes garantizan que no haya tiempo de inactividad. La actualización se completa cuando todas las instancias de componentes se han actualizado y vuelto al funcionamiento normal.

Continuidad del servicio

Private Cloud Appliance ofrece varias funciones que mejoran aún más la alta disponibilidad. La monitorización de la salud en todos los niveles del sistema es un factor clave. Los datos de diagnóstico y rendimiento se recopilan de todos los componentes y, a continuación, se almacenan y procesan de forma centralizada, y se ponen a disposición de los administradores en forma de visualizaciones en paneles de control estándar. Además, las alertas se generan cuando las métricas superan sus umbrales definidos.

Para mitigar la pérdida de datos y apoyar la recuperación de la configuración del sistema y los servicios en caso de fallo, se realizan copias de seguridad consistentes y completas regularmente. Una copia de seguridad también se puede ejecutar manualmente, por ejemplo, para crear un punto de restauración antes de una modificación crítica. Las copias de seguridad se almacenan en un recurso compartido NFS dedicado en ZFS Storage Appliance y permiten restaurar todo el enclave de servicio cuando sea necesario.

Opcionalmente, las cargas de trabajo desplegadas en el dispositivo se pueden proteger contra el tiempo de inactividad y la pérdida de datos mediante la implementación de la recuperación ante desastres. Para lograrlo, se deben configurar dos sistemas de Private Cloud Appliance en diferentes sitios y configurarlos para que sean una réplica entre sí. Los recursos bajo control de recuperación ante desastres se almacenan por separado en los dispositivos de almacenamiento ZFS de cada sistema y se replican entre los dos. Cuando se produce un incidente en un sitio, el entorno se activa en el sistema de réplica con un tiempo de inactividad mínimo. Recomendamos que la recuperación ante desastres se implemente para todos los sistemas de producción críticos.