Acerca del despliegue de sistemas de archivos Lustre

Con las crecientes necesidades de entrenamiento de IA/AA, inferencia y necesidades informáticas de alto rendimiento, debe considerar una solución de sistema de archivos totalmente gestionada que se amplíe. Descubra cómo desplegar un sistema de archivos sólido basado en la nube que permita el crecimiento futuro.

Oracle Cloud Infrastructure (OCI) File Storage con Lustre automatiza las tareas de despliegue, escalado y mantenimiento, lo que le permite centrarse en las aplicaciones en lugar de en la gestión de la infraestructura de Lustre. El servicio en OCI implementa el código abierto Lustre como servicio. El sistema de archivos Lustre se puede ampliar para ofrecer velocidades de varios terabytes por segundo para un procesamiento de datos rápido y un alto rendimiento.

Puede utilizar la consola de OCI, las API, los SDK, la interfaz de línea de comandos (CLI) y las métricas para crear, gestionar y supervisar el sistema de archivos de Lustre. El cliente de Lustre instalado en sus sistemas se comunica con el sistema de archivos de Lustre, específicamente con los servidores de almacenamiento de Lustre que utilizan sus subredes. Es responsable de gestionar las listas de seguridad, las tablas de enrutamiento, los grupos de seguridad y otras configuraciones relacionadas con la VCN.

Este manual de soluciones detalla las mejores prácticas para OCI File Storage con Lustre con instrucciones para crear, montar y supervisar el sistema de archivos Lustre. El objetivo es comenzar con el sistema de archivos de Lustre y acceder a él desde un cliente de Lustre.

Antes de empezar

Antes de comenzar, revise la documentación de Lustre para obtener más información sobre OCI File Storage con Lustre.

Arquitectura

Esta arquitectura muestra las comunicaciones de Lustre dentro de una red virtual en la nube (VCN). Todos los componentes de Lustre se despliegan en el mismo dominio de disponibilidad en varios dominios de errores para ofrecer una alta disponibilidad. Los sistemas de archivos Lustre se pueden montar desde instancias informáticas de OCI (tanto máquinas virtuales como instancias con hardware dedicado) y entornos en contenedores como Oracle Cloud Infrastructure Kubernetes Engine (OKE).

En el siguiente diagrama se ilustra la arquitectura de alto nivel de los componentes subyacentes de Lustre desplegados y gestionados por Oracle Cloud, así como los componentes gestionados por el cliente.



lustre-file-system-oci-arch.zip

La arquitectura tiene los siguientes componentes de OCI:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, que alojan dominios de disponibilidad. Las regiones son independientes entre sí y pueden separarse grandes distancias (entre países o incluso continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por tanto, un fallo en un dominio de disponibilidad no debería afectar a los demás dominios de disponibilidad de la región.

    OCI File Storage con Lustre se despliega en un único dominio de disponibilidad.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con energía y hardware independientes. Al distribuir los recursos entre varios dominios de errores, las aplicaciones pueden tolerar fallos físicos del servidor, mantenimiento del sistema y fallos de energía en un dominio de errores.

    Los componentes de OCI File Storage con Lustre se despliegan en varios dominios de errores para proporcionar redundancia y alta disponibilidad.

  • Red y subredes virtuales en la nube (VCN)

    Una VCN es una red personalizable definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

    A OCI File Storage con Lustre se accede a través de una VCN y se despliega en una subred gestionada por el cliente.

La arquitectura tiene los siguientes componentes de Lustre. Todos los componentes, excepto MGT, se agregan a medida que se necesita más capacidad:

  • Volumen de almacenamiento de Lustre (destino de almacenamiento de objetos u OST)

    Estos son los volúmenes donde se almacenan los datos de archivo.

  • Volumen de metadatos (destino de datos meta o MDT)

    Los metadatos de archivo, como nombres de archivo y atributos, se almacenan en estos volúmenes.

  • Volumen de gestión de Lustre (destino de gestión o MGT)

    Solo existe uno para un sistema de archivos. Este es un volumen utilizado para almacenar información de configuración del sistema de archivos Lustre.

  • Servidor de almacenamiento que aloja uno o más destinos de almacenamiento (OSS)

    Se trata de instancias informáticas virtuales o con hardware dedicado.

  • Servidor de metadatos que aloja uno o más destinos de metadatos (MDS)

    Se trata de instancias informáticas virtuales o con hardware dedicado.

  • LNet (Red de Lustre)

    LNet es una capa de red virtual que permite a los nodos de Lustre (incluidos los clientes) comunicarse entre sí. LNet oculta las complejidades de los protocolos de red subyacentes, lo que permite a Lustre operar de forma transparente en varios tipos de red, como Ethernet y InfiniBand.

  • VCN y subredes

    La comunicación de datos principales del sistema de archivos Lustre se basa en VCN y subredes. Esto incluye la comunicación entre el cliente y los servidores, así como entre el servidor y el servidor.

Acerca de los servicios y las políticas necesarios

Esta solución requiere los siguientes servicios y políticas:

  • Oracle Cloud Infrastructure Almacenamiento de archivos con Lustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Red virtual en la nube de Oracle Cloud Infrastructure

A continuación, se muestran las políticas necesarias para cada servicio. Para empezar a utilizarlo rápidamente, puede implantar las siguientes políticas y reglas de seguridad en la subred. Para cumplir con el principio de privilegio mínimo, las políticas específicas necesarias variarán según las necesidades de seguridad de la organización. Consulte la documentación de Lustre para obtener una lista completa de las políticas necesarias para gestionar los sistemas de archivos de Lustre en OCI.

Nombre de servicio: grupo de políticas de OCI IAM Necesario para...
Oracle Cloud Infrastructure File Storage con Lustre: lustre-admin-group
  • Cree y gestione el sistema de archivos Lustre.
  • Utilice y acceda a los recursos de VCN.
  • Gestione y acceda a componentes como VNIC y OCI Vault.
  • Acceda a las claves de OCI Vault cuando sea necesario el cifrado estático.

Los siguientes permisos son necesarios para File Storage con Lustre:

allow service lustrefs to use virtual-network-family in tenancy

Se necesita la siguiente regla para la entrada de la lista de seguridad:

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

La siguiente regla es necesaria para la salida de la lista de seguridad:

Egress to 0.0.0.0/0 to all protocols

Consulte Productos, soluciones y servicios de Oracle para obtener lo que necesita.

Acerca de OCI File Storage con el modelo de responsabilidad compartida de Lustre

OCI proporciona API, SDK, una interfaz de línea de comandos, la consola de OCI y métricas del sistema de archivos para gestionar los sistemas de archivos Lustre.

OCI File Storage con Lustre le permite crear, gestionar y supervisar el sistema de archivos. El servicio automatizará el aprovisionamiento y la gestión de los componentes de Lustre necesarios, como servidores de almacenamiento Lustre y destinos de almacenamiento Lustre. OCI es responsable del aprovisionamiento y la gestión de los componentes de backend, como servidores de almacenamiento y volúmenes de almacenamiento. Como se ilustra en el diagrama de arquitectura, los servidores de almacenamiento están interconectados utilizando la subred de un cliente para la comunicación de Lustre. Las listas de seguridad, las tablas de enrutamiento, los grupos de seguridad y otras configuraciones relacionadas con VCN las gestiona usted, el cliente.

Consideraciones para listas de seguridad de subred, políticas de IAM y clientes de Lustre

Al implantar File Storage con Lustre, revise las siguientes consideraciones. Estos deben estar en su lugar antes de crear sistemas de archivos Lustre.
  • Límites de capacidad y servicio de almacenamiento

    Asegúrese de que su arrendamiento tenga una cuota de límite de servicio para admitir la creación de nuevos sistemas de archivos.

  • Suficientes direcciones IP

    Asegúrese de que la subred de Lustre tenga suficientes direcciones IP para asignar a los recursos del sistema de archivos. Consulte la sección Configurar conectividad de Lustre para obtener más información.

  • Seguridad de subred y políticas de IAM

    Si lo siguiente no está configurado correctamente, la creación del sistema de archivos fallará después de que se agote el tiempo de espera durante la etapa de aprovisionamiento.

    • Las reglas de seguridad y/o los grupos de seguridad se deben configurar para permitir la comunicación del puerto 988 entre los servidores y clientes de Lustre.
    • Asegúrese de que lustrefs tiene permisos para utilizar virtual-network-family en el arrendamiento.

    Consulte la sección Acerca de los servicios y las políticas necesarios para obtener más información.

  • Paquetes de cliente Lustre

    Utilice la versión 2.15.5 del cliente Lustre con Ubuntu que ejecuta el núcleo 5.14.x y Oracle Linux 8 o 9 que ejecuta un núcleo compatible con Redhat (RHCK) versión 4.18.x o 5.15.x. Los módulos DKLM de Lustre hacen que el paquete de cliente de Lustre sea flexible para ejecutarse en diferentes versiones del núcleo. Si tiene preguntas sobre el cliente de Lustre, póngase en contacto con el soporte de OCI.

  • Firewalls en clientes de Lustre

    Por defecto, tanto Oracle Linux como Ubuntu ejecutan firewalls en los clientes. Asegúrese de que el puerto 988 está abierto para la comunicación bidireccional. El cliente de Lustre también escucha en el puerto 988 y este puerto debe estar abierto junto con la capacidad del cliente para comunicarse con el puerto 988 en el servidor. Como prueba, puede detener el firewall y vaciar las reglas de firewall para evitar cualquier interferencia de las reglas de firewall en el cliente. Siga siempre sus mejores prácticas de seguridad. Si tiene alguna pregunta, póngase en contacto con el soporte de OCI.