Despliegue del sistema de archivos paralelos de BeeGFS

BeeGFS es un sistema de archivos de cluster paralelo, desarrollado con un fuerte enfoque en el rendimiento de entrada y salida y diseñado para una fácil instalación y gestión. Mediante BeeGFS, puede crear un servidor de archivos de computación de alto rendimiento (HPC) en Oracle Cloud Infrastructure.

BeeGFS distribuye de forma transparente los datos de usuario entre varios servidores. Al aumentar el número de servidores y discos en el sistema, puede escalar el rendimiento y la capacidad del sistema de archivos desde pequeños clusters hasta sistemas de clase empresarial con miles de nodos.

Arquitectura

Esta arquitectura de referencia utiliza una región con un único dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura de referencia en una región con varios dominios de disponibilidad. Recomendamos que utilice subredes regionales para su despliegue, independientemente del número de dominios de disponibilidad.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de la arquitectura- deploy-beegfs.png a continuación
Descripción de la ilustración architecture-deploy-beegfs.png

La arquitectura tiene los siguientes componentes:

  • Región

    Una región es un área geográfica localizada compuesta por uno o más dominios de disponibilidad. Las regiones son independientes de otras regiones, y grandes distancias pueden separarlas (entre países o continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes e independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los demás dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como energía o refrigeración, o la red de dominios de disponibilidad interna. Por lo tanto, es poco probable que un fallo en un dominio de disponibilidad afecte a los demás dominios de disponibilidad de la región.

  • Dominios de Fallos

    Un dominio de fallo es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con energía y hardware independientes. Al colocar instancias de Compute en varios dominios de errores, las aplicaciones pueden tolerar errores de servidor físico, mantenimiento del sistema y muchos errores de red y energía comunes en el dominio de disponibilidad.

  • Red virtual en la nube (VCN) y subredes

    VCN es una red definida por software que se configura en una región de Oracle Cloud Infrastructure. Las VCN se pueden segmentar en subredes, que pueden ser específicas de una región o de un dominio de disponibilidad. Las subredes específicas de región y de dominio de disponibilidad pueden coexistir en la misma VCN. Una subred puede ser pública o privada.

  • Listas de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se deben permitir dentro y fuera de la subred.

  • Tablas de rutas

    Las tablas de rutas virtuales contienen reglas para enrutar el tráfico de subredes a destinos fuera de VCN, normalmente a través de gateways.

  • Gateway de Internet

    El gateway de Internet permite el tráfico entre VCN e Internet público.

  • Nodos de cliente

    Los clientes son instancias informáticas que acceden al sistema de archivos BeeGFS.

  • Servidor de gestión

    El servidor de gestión (MGS) es un punto de reunión para los servicios de metadatos, almacenamiento y cliente de BeeGFS. Un MGS almacena información de configuración para uno o más sistemas de archivos y proporciona esta información a otros hosts. Este recurso global puede soportar varios sistemas de archivos.

  • Servicio de metadatos

    El servicio de metadatos (MDS) almacena información sobre los datos, como información de directorio, propiedad de archivos y directorios, y la ubicación del contenido del archivo de usuario en los destinos de almacenamiento. El servicio de metadatos es un servicio de ampliación, lo que significa que puede utilizar uno o varios servicios de metadatos en un sistema de archivos BeeGFS.

    El contenido de metadatos se almacena en volúmenes denominados destinos de metadatos (MDT).

  • Servicio de almacenamiento de objetos

    El servicio de almacenamiento de objetos (OSS) es el servicio principal para almacenar contenido de archivos de usuario o archivos de fragmentos de datos. Los servidores de almacenamiento de objetos también se denominan servidores de almacenamiento.

    Al igual que el servicio de metadatos, el servicio de almacenamiento de objetos se basa en un diseño de ampliación. Una instancia de sistema operativo tiene uno o más destinos de almacenamiento de objetos.

    Cada servidor de almacenamiento proporciona acceso a un juego de volúmenes de almacenamiento, llamados destinos de almacenamiento de objetos (OST). Cada OST contiene varios objetos binarios que representan los datos de los archivos.

Recomendaciones

Sus requisitos pueden diferir de la arquitectura descrita aquí. Utilice las siguientes recomendaciones como punto de partida.

  • VCN

    Al crear VCN, determine cuántas direcciones IP necesitan sus recursos en la nube en cada subred. Mediante la notación de enrutamiento entre dominios sin clases (CIDR), especifique una máscara de subred y un rango de direcciones de red lo suficientemente grande como para las direcciones IP necesarias. Utilice un rango de direcciones que esté dentro del espacio de direcciones IP privadas estándar.

    Seleccione un rango de direcciones que no se superponga con la red local, de modo que pueda configurar una conexión entre VCN y la red local, si es necesario.

    Después de crear un VCN, no puede cambiar su rango de direcciones.

    Cuando diseñe las subredes, tenga en cuenta sus requisitos de flujo de tráfico y seguridad. Conecte todas las instancias de cálculo dentro del mismo nivel o rol a la misma subred, que puede servir como límite de seguridad.

  • Listas de seguridad

    Utilice listas de seguridad para definir reglas de entrada y salida que se aplican a toda la subred.

  • Host de Bastion

    Un host bastion se utiliza para acceder a cualquier nodo de la subred privada. Utilice la forma VM.Standard.E2.1.

  • Servidor de Gestión (MGS)

    Debido a que el MGS no es intensivo en recursos, puede optar por desplegarlo con el servidor MDS. Si lo despliega por separado, la forma de VM.Standard2.2 es suficiente.

    Utilice un volumen en bloque de nivel de rendimiento equilibrado de 50 GB. El volumen en bloque se puede cambiar de tamaño si se necesita más espacio.

  • Servidor de Servicio de Metadatos (MDS)

    Utilice una forma VM.Standard2.8 o superior. Los requisitos dependen de si la carga de trabajo es intensiva en metadatos (para cargas de trabajo de archivos pequeñas) o no, cuántas instancias de metadatos se están ejecutando por nodo, etc.

    Para obtener el máximo rendimiento, se recomienda una forma de hardware dedicado como BM.Standard2.52 porque tiene dos NIC físicas, cada una con una velocidad de red de 25 Gbps. Utilice una NIC para todo el tráfico para bloquear el almacenamiento y utilice la otra NIC para los datos entrantes en los nodos MDS de los nodos cliente.

    Utilice almacenamiento de volumen en bloque; el tamaño y el número cambian por requisito de despliegue para más almacenamiento. Si se necesita más espacio, se puede cambiar el tamaño del volumen en bloque.

  • Servidor de Servicio de Almacenamiento de Objetos (OSS)

    Utilice VM.Standard2.8 o superior. El requisito depende del rendimiento global de E/S agregado en GBps necesario del sistema de archivos.

    Para obtener el máximo rendimiento, se recomienda una forma de hardware dedicado, como BM.Standard2.52, porque tiene dos NIC físicas, cada una con velocidad de red de 25 Gbps. Utilice una NIC para todo el tráfico para bloquear el almacenamiento y utilice la otra NIC para los datos entrantes en los nodos OSS de los nodos cliente.

  • Nodos de cliente

    Seleccione una forma de VM basada en los planes de despliegue. La forma determina el ancho de banda de red que está disponible para que la instancia lea y escriba en el sistema de archivos. Por ejemplo, una forma VM.Standard2.16 tiene un ancho de banda de red máximo de 16.4 Gbps, lo que significa que el rendimiento máximo de E/S es 2.05 GBps.

    Tanto Intel como AMD VM y las formas informáticas con hardware dedicado se pueden utilizar para los clientes.

Consideraciones

  • Rendimiento

    Para obtener el mejor rendimiento, elija la forma informática correcta con el ancho de banda adecuado.

  • Disponibilidad

    Considere la posibilidad de utilizar una opción de alta disponibilidad basada en el requisito de despliegue.

  • Costo

    El servicio de hardware dedicado proporciona un mayor ancho de banda de red, pero para un mayor costo. Evalúe sus requisitos para elegir la forma informática adecuada.

  • Supervisión y Alertas

    Configure la supervisión y las alertas sobre el uso de CPU y memoria para los nodos MGS, MDS y OSS para escalar la forma de VM hacia arriba o hacia abajo según sea necesario.

Desplegar

El código Terraform para esta arquitectura de referencia está disponible en GitHub.

Puede desplegarse mediante el script de Terraform directamente o mediante el servicio Oracle Cloud Infrastructure Resource Manager.

  1. Vaya a GitHub.
  2. Clone o descargue el repositorio en su computadora local.
  3. Para utilizar el script de Terraform, siga las instrucciones del documento README.
  4. Para utilizar Oracle Cloud Infrastructure Resource Manager, siga las instrucciones del README en el directorio orm del repositorio.