Note:

Despliegue de un cluster de recursos informáticos de alto rendimiento con GPU en Oracle Cloud Infrastructure

Introducción

La llegada de potentes modelos de lenguaje grande (LLM) aumenta la necesidad de una infraestructura con suficiente memoria de unidad de procesamiento de gráficos (GPU) para realizar tareas de ajuste fino, y una forma de lograrlo utiliza un cluster de GPU. Oracle Cloud Infrastructure (OCI) tiene la capacidad de desplegar un supercluster de GPU NVIDIA A100s y utilizar su poder para ejecutar o ajustar un LLM.

Componentes

La red de cluster es un recurso potente de OCI para desplegar clusters de máquinas de HPC y GPU conectadas por una red de gran ancho de banda y latencia ultrabaja. Cada uno de los nodos del cluster es un equipo dedicado ubicado en la proximidad física al resto de nodos. Una red remota de acceso directo a memoria (RDMA) entre los nodos proporciona una latencia de microsegundos de un solo dígito, comparable a los clusters de computación de alto rendimiento (HPC) locales. Para obtener más información, consulte Redes de cluster con pools de instancias.

Para desplegar un cluster, debe crear un grupo dinámico con la información del compartimento de espacio de trabajo, un juego de políticas que permitan a los servicios y al grupo dinámico realizar algunas tareas, una imagen personalizada de una imagen ISO de Ubuntu que utilizará el cluster del nodo y desplegar una pila de Marketplace para desplegar el cluster. Para obtener más información, consulte Gestión de grupos dinámicos, Políticas, Imágenes personalizadas y Oracle Cloud Marketplace.

Objetivo

Requisitos

tarea 1: creación de un grupo dinámico

Cree una regla de grupo dinámico con información del espacio de trabajo.

  1. Conéctese a la consola de OCI, vaya a Identidad y seguridad y haga clic en Compartimentos. Copie el identificador de Oracle Cloud (OCID) del compartimento de trabajo.

    Imagen 1

  2. Haga clic en Grupos dinámicos y Crear grupo dinámico.

  3. Introduzca un nombre y una descripción. Para este tutorial, introduzca instance-principal como nombre. Actualice el OCID y haga clic en Crear.

    Imagen 2

Tarea 2: Definición de Políticas

Defina las políticas necesarias para el proceso de despliegue.

  1. Vaya a la consola de OCI, vaya a Identidad y seguridad y a Políticas.

  2. Haga clic en Create Policy, introduzca un Name, una Description y seleccione el compartimento raíz.

  3. Haga clic en Mostrar editor manual e introduzca las siguientes políticas, sustituya <> por la información y haga clic en Crear.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Imagen 3

Tarea 3: (Opcional) Creación de una imagen personalizada

Cree una imagen personalizada a partir de una imagen de Ubuntu para máquinas GPU. Si corresponde.

  1. Vaya a la consola de OCI, vaya a Recursos informáticos e Imágenes personalizadas.

    Imagen 4

  2. En Imágenes personalizadas, haga clic en Importar imagen.

    Imagen 5

  3. Introduzca la siguiente información.

    • Compartimento: introduzca el compartimento.
    • Nombre: para este tutorial, introduzca Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 como nombre.
    • Sistema operativo: introduzca el sistema operativo.
    • Seleccione Importar desde una URL de Object Storage e introduzca la siguiente URL: https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Imagen 6

  4. Introduzca la ubicación de la imagen en el almacenamiento de objetos.

    Imagen 7

    Imagen 8

  5. Mantenga la otra configuración por defecto y haga clic en Importar imagen. La imagen personalizada tardará unos minutos en estar lista para su uso.

    Imagen 9

Tarea 4: Despliegue de la pila de HPC

Una forma sencilla y rápida de desplegar la pila de HPC es utilizar la siguiente URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip. Esta URL utilizará todos los scripts recomendados y actualizados para crear el entorno.

Nota: Para comprobar las últimas actualizaciones del script de despliegue, vaya a la URL: https://github.com/oracle-quickstart/oci-hpc. En el archivo README.md, haga clic en Desplegar en Oracle Cloud como se muestra en la siguiente imagen.

Imagen 28

o bien,

Despliegue la pila de HPC tradicionalmente a través de la consola de OCI.

  1. Vaya a la consola de OCI, haga clic en Marketplace y Todas las aplicaciones.

    Imagen 10

  2. Introduzca HPC solutions en la barra Buscar.

    Imagen 11

  3. Seleccione Cluster de HPC.

    Imagen 12

  4. Introduzca la información necesaria para crear la pila.

    Imagen 13

    Imagen 14

    Imagen 15

    Imagen 16

    Imagen 17

    Imagen 18

    Imagen 19

    Imagen 20

  5. Introduzca los valores necesarios para configurar las opciones de bastión avanzado.

    Imagen 21

  6. Introduzca los parámetros de red de cluster.

    Imagen 22 Imagen 23

  7. Haga clic en Crear para inicializar el despliegue de pila.

    Imagen 24

    La pila se ha creado correctamente.

    Imagen 25

  8. Para comprobar las instancias creadas, vaya a la consola de OCI y haga clic en Recursos informáticos, Instancias.

    Imagen 26

    Imagen 27

Agradecimientos

Más recursos de aprendizaje

Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de aprendizaje gratuito en el canal YouTube de Oracle Learning. Además, visite education.oracle.com/learning-explorer para convertirse en Oracle Learning Explorer.

Para obtener documentación sobre el producto, visite Oracle Help Center.