Despliegue de un sistema de archivos escalable y distribuido mediante Lustre

Lustre es un sistema de archivos de código abierto, paralelo y distribuido utilizado para clusters y entornos de computación de alto rendimiento (HPC). El nombre Lustre es un portmanteau de Linux y cluster.

Con Lustre, puede crear un servidor de archivos HPC en Oracle Cloud Infrastructure bare metal Compute y almacenamiento de bloques conectado a la red o SSD NVMe conectados localmente a nodos Compute. Una plantilla de Terraform proporciona una forma fácil de desplegar Lustre en Oracle Cloud Infrastructure.

Los clusters Lustre escalan para obtener un mayor rendimiento, una mayor capacidad de almacenamiento o ambos para el sistema de archivos. Solo cuesta unos pocos centavos por gigabyte al mes para Compute y almacenamiento combinado.

La plantilla de despliegue de Terraform aprovisiona recursos Oracle Cloud Infrastructure, incluidos Compute, Storage, Virtual Cloud Network y Subnets. También proporciona software Lustre, que incluye un servidor de gestión (MGS), un servidor de metadatos (MDS), un servidor de almacenamiento de objetos (OSS) y nodos de cliente Lustre.

Arquitectura

Esta arquitectura de referencia utiliza una región con un único dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura de referencia en una región con varios dominios de disponibilidad. Recomendamos que utilice subredes regionales para su despliegue, independientemente del número de dominios de disponibilidad.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de lustre-oci.png a continuación
Descripción de la ilustración lustre-oci.png

La arquitectura Lustre escalable tiene los siguientes componentes:

  • Servidor de Gestión (MGS)

    Un MGS almacena información de configuración para uno o más sistemas de archivos Lustre y proporciona esta información a otros hosts Lustre. Este recurso global puede soportar varios sistemas de archivos.

  • Servidor de Metadatos (MDS)

    Un MDS proporciona el índice o espacio de nombres para un sistema de archivos Lustre. El contenido de metadatos se almacena en volúmenes denominados Metadata Targets (MDT). La estructura de directorios de un sistema de archivos Lustre y los nombres de archivos, permisos, atributos ampliados y diseños de archivos se registran en MDT. Cada sistema de archivos Lustre debe tener un mínimo de un MDT.

  • Servidores de Almacenamiento de Objetos (OSS)

    Un OSS proporciona el almacenamiento masivo de datos para todo el contenido de archivos en un sistema de archivos Lustre. Cada OSS proporciona acceso a un juego de volúmenes de almacenamiento, llamados destinos de almacenamiento de objetos (OST). Cada OST contiene varios objetos binarios que representan los datos de archivos en Lustre. Los archivos de Lustre están compuestos por uno o más objetos OST, además del inodo de metadatos almacenado en el MDS.

  • Clientes de Lustre

    Los clientes son instancias informáticas que acceden al sistema de archivos Lustre.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red definida por software que se configura en una región Oracle Cloud Infrastructure. Las VCN se pueden segmentar en subredes, que pueden ser específicas de una región o de un dominio de disponibilidad. Tanto las subredes específicas de cada región como las específicas de dominio de disponibilidad pueden coexistir en la misma VCN. Una subred puede ser pública o privada.

  • Listas de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, destino y tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes e independientes dentro de una región. Los recursos físicos en cada dominio de disponibilidad están aislados de los recursos en los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como energía o refrigeración, o la red de dominio de disponibilidad interna. Por lo tanto, es poco probable que un fallo en un dominio de disponibilidad afecte a los otros dominios de la región.

Recomendaciones

Sus requisitos pueden diferir de la arquitectura descrita aquí. Utilice las siguientes recomendaciones como punto de partida.

  • Forma informática, bastión host

    Un host de bastión se utiliza para acceder a los nodos de la subred privada. Utilice la forma VM.Standard.E2.1 o VM.Standard.E2.2.

  • Forma informática, MGS y MDS

    Debido a que el MGS no es intensivo en recursos, puede alojar el MGS y el MDS en la misma instancia. Para asegurarse de que una interrupción de nivel de nodo no afecte al sistema de archivos, utilice una instancia de hardware dedicado con alta disponibilidad.

  • Compute hardware desnudo con volumen en bloque y alta disponibilidad

    Utilice BM.Standard2.52. Dos nodos se configuran en un par. Los dos controladores de interfaz de red física (NIC) cada uno con velocidad de red de 25 Gbps. Utilice una NIC para todo el tráfico para bloquear el almacenamiento y utilice la otra NIC para los datos entrantes en los nodos OSS y MDS de los nodos cliente.

    Utilice el almacenamiento de volúmenes en bloque (tamaño y número por requisito de despliegue) con el anexo de varias instancias para asociar un volumen a ambos nodos de cálculo.

  • Forma informática, OSS

    Nuestra recomendación para OSS es la misma que para MGS y MDS.

  • Forma informática, cliente Lustre

    Elija una forma de máquina virtual (VM) basada en los planes de despliegue, especialmente en los requisitos de ancho de banda de red.

    El rendimiento de cada cliente depende de la capacidad. Si despliega 10 clientes con ancho de banda de red 2.5-Gbps, el ancho de banda agregado es 25 Gbps.

  • Configuración de RAID

    Opcionalmente, las formas de DenseIO se pueden configurar con RAID 0.

    Utilice RAID al crear un OST por OSS.

    Si utiliza un OST por OSS, recomendamos utilizar ocho volúmenes en bloque por OSS para maximizar el rendimiento (RAID 0 es opcional).

    Nota:

    La plantilla Terraform crea una forma de hardware dedicado con DenseIO o con volúmenes en bloque.
  • VCN

    Al crear VCN, determine cuántas direcciones IP necesitan sus recursos en la nube en cada subred. Mediante la notación Classless Inter-Domain Routing (CIDR), especifique una máscara de subred y un rango de direcciones de red lo suficientemente grande como para las direcciones IP necesarias. Utilice un espacio de dirección que esté dentro de los bloques de direcciones IP privadas estándar.

    Seleccione un rango de direcciones que no se superponga con la red local, de modo que pueda configurar una conexión entre VCN y la red local, si es necesario.

    Después de crear un VCN, no puede cambiar su rango de direcciones.

    Cuando diseñe las subredes, tenga en cuenta sus requisitos de funcionalidad y seguridad. Conecte todas las instancias de cálculo dentro del mismo nivel o rol a la misma subred, que puede servir como límite de seguridad.

    Utilice subredes regionales.

  • Listas de seguridad

    Utilice listas de seguridad para definir reglas de entrada y salida que se aplican a toda la subred. Por ejemplo, esta arquitectura permite ICMP internamente para toda la subred privada.

Consideraciones

  • Rendimiento

    Para obtener el mejor rendimiento, elija la forma informática correcta con el ancho de banda adecuado.

  • Disponibilidad

    Considere la posibilidad de utilizar una opción de alta disponibilidad basada en el requisito de despliegue.

  • Costo

    El servicio de hardware dedicado proporciona un mayor rendimiento en el ancho de banda de red para un mayor costo. Evalúe sus requisitos para elegir la forma informática adecuada.

  • Supervisión y alertas

    Configure la supervisión y las alertas sobre el uso de CPU y memoria para los nodos MGS, MDS y OSS para escalar la forma de VM hacia arriba o hacia abajo según sea necesario.

Desplegar

El código Terraform para esta arquitectura de referencia está disponible como pila de ejemplo en Oracle Cloud Infrastructure Resource Manager. También puede descargar el código de GitHub y personalizarlo para adaptarlo a sus requisitos específicos.

  • Desplegar mediante la pila de ejemplo en Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic enDespliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca las credenciales de arrendamiento y usuario.

    2. Revise y acepte los términos y condiciones.
    3. Seleccione la región en la que desea desplegar la pila.
    4. Siga las instrucciones y peticiones de datos en pantalla para crear la pila.
    5. Después de crear la pila, haga clic en Acciones Terraform y seleccione Plan.
    6. Espere a que se complete el trabajo y revise el plan.

      Para realizar cualquier cambio, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    7. Si no son necesarios otros cambios, vuelva a la página Detalles de Pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Desplegar mediante el código Terraform en GitHub:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en su computadora local.
    3. Siga las instrucciones del documento README.