Note:
- Este tutorial requiere acceso a Oracle Cloud. Para registrarse en una cuenta gratuita, consulte Introducción a Oracle Cloud Infrastructure Free Tier.
- Utiliza valores de ejemplo para credenciales, arrendamiento y compartimentos de Oracle Cloud Infrastructure. Al finalizar el laboratorio, sustituya estos valores por otros específicos del entorno en la nube.
Despliegue de un cluster de recursos informáticos de alto rendimiento con GPU en Oracle Cloud Infrastructure
Introducción
La llegada de potentes modelos de lenguaje grande (LLM) aumenta la necesidad de una infraestructura con suficiente memoria de unidad de procesamiento de gráficos (GPU) para realizar tareas de ajuste fino, y una forma de lograrlo utiliza un cluster de GPU. Oracle Cloud Infrastructure (OCI) tiene la capacidad de desplegar un supercluster de GPU NVIDIA A100s y utilizar su poder para ejecutar o ajustar un LLM.
Componentes
La red de cluster es un recurso potente de OCI para desplegar clusters de máquinas de HPC y GPU conectadas por una red de gran ancho de banda y latencia ultrabaja. Cada uno de los nodos del cluster es un equipo dedicado ubicado en la proximidad física al resto de nodos. Una red remota de acceso directo a memoria (RDMA) entre los nodos proporciona una latencia de microsegundos de un solo dígito, comparable a los clusters de computación de alto rendimiento (HPC) locales. Para obtener más información, consulte Redes de cluster con pools de instancias.
Para desplegar un cluster, debe crear un grupo dinámico con la información del compartimento de espacio de trabajo, un juego de políticas que permitan a los servicios y al grupo dinámico realizar algunas tareas, una imagen personalizada de una imagen ISO de Ubuntu que utilizará el cluster del nodo y desplegar una pila de Marketplace para desplegar el cluster. Para obtener más información, consulte Gestión de grupos dinámicos, Políticas, Imágenes personalizadas y Oracle Cloud Marketplace.
Objetivo
- Despliegue un cluster A100 de GPU en OCI mediante una pila preconfigurada.
Requisitos
-
Acceso para crear grupos dinámicos, grupos de usuarios y políticas. Para obtener permisos de acceso, póngase en contacto con el administrador del arrendamiento.
-
Límites de computación de GPU. Si no tiene suficientes límites de GPU de recursos informáticos, consulte Solicitud de un aumento del límite de servicio.
tarea 1: creación de un grupo dinámico
Cree una regla de grupo dinámico con información del espacio de trabajo.
-
Conéctese a la consola de OCI, vaya a Identidad y seguridad y haga clic en Compartimentos. Copie el identificador de Oracle Cloud (OCID) del compartimento de trabajo.
-
Haga clic en Grupos dinámicos y Crear grupo dinámico.
-
Introduzca un nombre y una descripción. Para este tutorial, introduzca
instance-principal
como nombre. Actualice el OCID y haga clic en Crear.
Tarea 2: Definición de Políticas
Defina las políticas necesarias para el proceso de despliegue.
-
Vaya a la consola de OCI, vaya a Identidad y seguridad y a Políticas.
-
Haga clic en Create Policy, introduzca un Name, una Description y seleccione el compartimento raíz.
-
Haga clic en Mostrar editor manual e introduzca las siguientes políticas, sustituya
<>
por la información y haga clic en Crear.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
Tarea 3: (Opcional) Creación de una imagen personalizada
Cree una imagen personalizada a partir de una imagen de Ubuntu para máquinas GPU. Si corresponde.
-
Vaya a la consola de OCI, vaya a Recursos informáticos e Imágenes personalizadas.
-
En Imágenes personalizadas, haga clic en Importar imagen.
-
Introduzca la siguiente información.
- Compartimento: introduzca el compartimento.
- Nombre: para este tutorial, introduzca
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
como nombre. - Sistema operativo: introduzca el sistema operativo.
- Seleccione Importar desde una URL de Object Storage e introduzca la siguiente URL:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
Introduzca la ubicación de la imagen en el almacenamiento de objetos.
-
Mantenga la otra configuración por defecto y haga clic en Importar imagen. La imagen personalizada tardará unos minutos en estar lista para su uso.
Tarea 4: Despliegue de la pila de HPC
Una forma sencilla y rápida de desplegar la pila de HPC es utilizar la siguiente URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
. Esta URL utilizará todos los scripts recomendados y actualizados para crear el entorno.
Nota: Para comprobar las últimas actualizaciones del script de despliegue, vaya a la URL:
https://github.com/oracle-quickstart/oci-hpc
. En el archivoREADME.md
, haga clic en Desplegar en Oracle Cloud como se muestra en la siguiente imagen.
o bien,
Despliegue la pila de HPC tradicionalmente a través de la consola de OCI.
-
Vaya a la consola de OCI, haga clic en Marketplace y Todas las aplicaciones.
-
Introduzca
HPC solutions
en la barra Buscar. -
Seleccione Cluster de HPC.
-
Introduzca la información necesaria para crear la pila.
-
Introduzca los valores necesarios para configurar las opciones de bastión avanzado.
-
Introduzca los parámetros de red de cluster.
-
Haga clic en Crear para inicializar el despliegue de pila.
La pila se ha creado correctamente.
-
Para comprobar las instancias creadas, vaya a la consola de OCI y haga clic en Recursos informáticos, Instancias.
Agradecimientos
- Autores: Douglas Silva (LAD A-Team), Leandro Camargo (LAD A-Team)
Más recursos de aprendizaje
Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de aprendizaje gratuito en el canal YouTube de Oracle Learning. Además, visite education.oracle.com/learning-explorer para convertirse en Oracle Learning Explorer.
Para obtener documentación sobre el producto, visite Oracle Help Center.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98228-01
May 2024