Configuración de la pila de clusters de HPC desde Oracle Cloud Marketplace

La pila de cluster de HPC utiliza Terraform para desplegar recursos de Oracle Cloud Infrastructure. La pila creará nodos de GPU, almacenamiento, redes estándar y redes de cluster de alto rendimiento, y un nodo bastión/cabeza para el acceso y la gestión del cluster.

Despliegue del cluster de GPU

Su cuenta de Oracle Cloud debe estar en un grupo con permiso para desplegar y gestionar estos recursos. Consulte las instrucciones de uso del cluster de HPC para obtener más información sobre los requisitos de políticas.

Puede desplegar la pila en un compartimento existente, pero puede que sea más limpia si crea un compartimento específicamente para el cluster.

Note:

Aunque no supone ningún costo utilizar la pila de Marketplace para aprovisionar un entorno, se le cobrará por los recursos aprovisionados cuando se inicie la pila.
  1. Cree un compartimento para su arrendamiento y región y verifique que las políticas están disponibles.
    1. Conéctese a la consola de OCI como usuario de Oracle Cloud para el arrendamiento y la región en los que desea trabajar.
    2. Cree un compartimento para los recursos del cluster.
    3. Asegúrese de que las políticas de OCI están implantadas para permitirle crear el cluster.
      Esto puede requerir la ayuda de su administrador de red o de seguridad. A continuación se muestra un ejemplo de política: "permitir que el grupo myGroup gestione todos los recursos del compartimento compartment".
  2. Utilice la pila de cluster de HPC para desplegar el cluster de GPU.
    1. Vaya a Marketplace y, a continuación, haga clic en Todas las aplicaciones.
    2. En el cuadro Buscar listas, introduzca Cluster de HPC.

      Note:

      Si la pila de cluster de HPC no está disponible en OCI Marketplace en su arrendamiento, puede clonar la pila de GitHub (clonación de Git https://github.com/oracle-quickstart/oci-hpc.git) e importarla a OCI Resource Manager. Esto proporciona la misma funcionalidad, pero requiere que tenga acceso a una "imagen de sistema operativo personalizada" adecuada para los nodos de GPU.
    3. Haga clic en Cluster de HPC.
    4. Seleccione una versión.
      Usamos la versión predeterminada v2.10.4.1.
    5. Seleccionar un compartimento en el que crear el cluster
    6. Haga clic en Iniciar pila.

Configuración del cluster

Cuando se inicie la pila, complete las páginas Stack Information and Configuration para comenzar a configurar el cluster.

  1. Complete la página Información de pila:
    1. Introduzca un nombre para el cluster.
    2. (Opcional) Agregue una descripción breve.
    3. Haga clic en Siguiente.

    Se muestra la página Variables de configuración.

  2. Configure el cluster.
    La página Variables de configuración proporciona muchas oportunidades para personalizar el cluster según sus necesidades. No cubrimos cada opción en detalle. En su lugar, proporcionamos orientación donde se necesita cualquier configuración no predeterminada para crear un cluster de GPU que admita el software de cluster NVIDIA.
    1. En Clave SSH pública, agregue una clave pública que le permita conectarse al cluster.
    2. Seleccione la casilla de control Usar nombre de cluster personalizado y, a continuación, introduzca un nombre de host base.
      Se utiliza como prefijo para los nombres de host de bastión y nodo de conexión.
  3. Utilice las opciones de nodo principal para personalizar el bastión.
    Esta instancia sirve como nodo de conexión principal, el controlador Slurm, y también se puede utilizar para algunas compilaciones y otras actividades que admiten el cluster. Aquí puede ajustar la capacidad de la CPU, la memoria y el volumen de inicio según sus necesidades
  4. Utilice Opciones de nodo de cálculo para seleccionar el tipo y la cantidad de nodos de trabajador en el cluster. Puede desplegar estos nodos con una imagen de sistema operativo desde Marketplace o proporcionar una imagen personalizada con la creación de sistema operativo que prefiera.
    • Dominio de disponibilidad: si trabaja en una región con varios dominios de disponibilidad (AD), seleccione el dominio de disponibilidad con la mejor disponibilidad de recursos de GPU.
    • Seleccione Usar Red de Cluster.
    • Unidad de los nodos de cálculo: seleccione la unidad de GPU con hardware dedicado que está utilizando en este cluster. Por ejemplo, BM.GPU4.8.
    • Tamaño de cluster inicial: introduzca el número de nodos con hardware dedicado que se van a aprovisionar.
    • Para crear una imagen de sistema operativo preconfigurada desde Marketplace, seleccione Usar imagen de marketplace. A continuación, en Image version, seleccione una de las imágenes de GPU para un sistema operativo preconfigurado con controladores para GPU y redes RDMA.
    • Usar imagen de marketplace: si va a crear el cluster con una imagen personalizada, anule la selección de esta casilla de control, seleccione Usar imagen no soportada y, a continuación, en OCID de imagen, proporcione el OCID de la imagen personalizada que ya ha cargado en el arrendamiento.
    • Usar agente informático: esta opción puede ser necesaria para las imágenes de Marketplace.
  5. (Opcional) Nodo de inicio de sesión adicional proporciona un segundo host para que los usuarios del cluster interactúen con el cluster. La forma, el ocpus y la memoria se pueden personalizar para satisfacer sus necesidades.
  6. Las opciones de almacenamiento avanzadas ofrecen varias formas de preconfigurar el almacenamiento compartido que estará disponible en todo el cluster. Haga clic en Mostrar opciones de almacenamiento avanzadas para ampliar las selecciones.
    • El directorio raíz del bastión es NFS compartido en todos los nodos del cluster. Esto forma parte del volumen de inicio del nodo principal, que puede personalizar en las opciones de nodo principal.
    • Para obtener más almacenamiento compartido, seleccione Volumen en bloque adicional para espacio compartido e introduzca la capacidad. Este volumen está asociado al bastión y se comparte en el cluster como /nfs/cluster.
    • Espacio reutilizable NFS compartido desde NVME o volumen en bloque comparte la capacidad NVMe del primer nodo de cálculo en el cluster como /nfs/scratch. Esto proporciona un almacenamiento de mayor rendimiento que los volúmenes de nodo principal, pero puede proporcionar menos capacidad y disponibilidad.
    • Mount Localdisk creará un sistema de archivos desde NVMe en cada nodo de cálculo y lo montará localmente en ese nodo.
    • Un volumen lógico utiliza LVM para crear un volumen más grande a partir de varios dispositivos NVMe.
    • La redundancia aumenta la fiabilidad (pero reduce a la mitad la capacidad utilizable) del almacenamiento NVMe mediante la creación de reflejos de dispositivos.
  7. Utilice Opciones de red para seleccionar la VCN.
    • Usar VCN existente: deseleccionada por defecto. Si no se selecciona, se aprovisiona una nueva VCN. Seleccione esta casilla de control para aprovisionar el cluster en una VCN y subredes existentes. Esto puede facilitar la integración de este cluster y otros recursos de arrendamiento.
  8. Utilice Software para seleccionar el software que desea instalar.
    • Seleccione Install SLURM (Instalar SLURM) para proporcionar gestión y programación de trabajos de SLURM.
    • (Opcional) Seleccione Instalar herramientas de supervisión de cluster de HPC para proporcionar más información sobre la actividad y el uso del cluster.
    • Seleccione Instalar NVIDIA Enroot para cargas de trabajo de GPU en contenedores. Esto prepara el entorno para ejecutar cargas de trabajo en la plataforma NVIDIA PyTorch, NVIDIA NeMo y otros contenedores.

      Note:

      Es importante que seleccione esta opción.
    • Seleccione Install NVIDIA Pyxis plugin for Slurm.
    • Seleccione Activar PAM para limitar el acceso de conexión a los nodos de cálculo.
  9. Depurar: asegúrese de que Configurar sistema está seleccionado (este es el valor por defecto).
  10. Haga clic en Siguiente para revisar los ajustes de configuración.

    En la revisión, Cluster Configuration muestra todas las selecciones no predeterminadas. Puede devolver la página Anterior para realizar cambios y volver a visitar toda la configuración.

  11. Seleccione Ejecutar aplicación y, a continuación, haga clic en Crear para iniciar la pila en su arrendamiento y crear el cluster.
    La pila se crea en OCI Resource Manager y se inicia con sus especificaciones para comenzar el aprovisionamiento inmediatamente.

    Este proceso durará varios minutos. El aprovisionamiento de los nodos tarda solo unos minutos por nodo de cálculo, pero la instalación de software adicional en los nodos aumenta el tiempo de creación. Puede supervisar el progreso de la compilación en la consola de OCI. Vaya a Gestor de recursos y, a continuación, a Trabajos para revisar el log de trabajos más reciente en busca de actividad y posibles errores. Cuando el estado del trabajo del gestor de recursos informa Correcto, el despliegue se ha completado.

    Si el estado final no es correcto, revise el log de trabajos para obtener más información. Para problemas relacionados con instancias informáticas y redes de cluster, puede que haya más información disponible en Solicitudes de trabajo de red de cluster. Para navegar a la página, vaya a Compute, Cluster networks, Cluster network details y Cluster network work requests. Seleccione la solicitud de trabajo más reciente para ver los detalles.

  12. Para las compilaciones correctas, la dirección IP del bastión se informa al final del log de trabajos. Si configuró un nodo de inicio de sesión adicional, también se muestra la dirección IP del nodo de inicio de sesión. Por ejemplo,
    Apply complete! Resources: 23 added, 0 changed, 0 destroyed.
    
    Outputs:
    RDMA_NIC_metrics_url = "https://objectstorage.us-gov-phoenix-1.oraclecloud.com
    backup = "No Slurm Backup Defined"
    bastion = 139.87.214.247
    login = "No Login Node Defined"
    private_ips = 172.16.6.4 172.16.7.109"
  13. Anote la dirección IP pública de Bastion, ya que es necesaria para conectarse al cluster.
    También puede localizar las direcciones IP en la consola de OCI en Recursos informáticos y, a continuación, en Instancias.