Nota
- Questa esercitazione richiede l'accesso a Oracle Cloud. Per iscriverti a un account gratuito, consulta Inizia a utilizzare Oracle Cloud Infrastructure Free Tier.
- Utilizza valori di esempio per le credenziali, la tenancy e i compartimenti di Oracle Cloud Infrastructure. Al termine del laboratorio, sostituisci questi valori con quelli specifici del tuo ambiente cloud.
Distribuisci un cluster GPU High Performance Computing in Oracle Cloud Infrastructure
Introduzione
L'avvento di potenti modelli di linguaggio di grandi dimensioni (LLM) aumenta la necessità di un'infrastruttura con memoria GPU (Graphics Processing Unit) sufficiente per eseguire attività di tuning e un modo per raggiungere questo obiettivo utilizza un cluster GPU. Oracle Cloud Infrastructure (OCI) ha la possibilità di distribuire un supercluster di GPU NVIDIA A100s e di utilizzare la propria potenza per eseguire o ottimizzare un LLM.
Componenti
La rete cluster è una potente risorsa di OCI per la distribuzione di cluster di computer HPC e GPU connessi da una rete a banda larga e a bassissima latenza. Ogni nodo nel cluster è un computer Bare Metal situato in prossimità fisica degli altri nodi. Una rete RDMA (Remote Direct Memory Access) tra i nodi fornisce una latenza di microsecondi a singola cifra, paragonabile ai cluster HPC (High Performance Computing) in locale. Per ulteriori informazioni, vedere Reti cluster con pool di istanze.
Per distribuire un cluster, è necessario creare un gruppo dinamico con le informazioni sul compartimento dell'area di lavoro, un set di criteri che consentono ai servizi e al gruppo dinamico di eseguire alcuni task, un'immagine personalizzata di un'immagine ISO Ubuntu che deve essere utilizzata dal cluster del nodo e distribuire uno stack Marketplace per distribuire il cluster. Per ulteriori informazioni, vedere Gestione dei gruppi dinamici, Criteri, Immagini personalizzate e Oracle Cloud Marketplace.
Obiettivo
- Distribuire un cluster GPU A100 su OCI utilizzando uno stack preconfigurato.
Prerequisiti
-
Accesso per creare gruppi dinamici, gruppi di utenti e criteri. Per le autorizzazioni di accesso, contattare l'amministratore della tenancy.
-
Limiti di GPU Computing. Se non si dispone di limiti GPU di computazione sufficienti, vedere Richiesta di un aumento del limite del servizio.
Task 1: Creare un gruppo dinamico
Creare una regola di gruppo dinamico con informazioni sull'area di lavoro.
-
Eseguire il login a OCI Console, passare a Identità e sicurezza e fare clic su Compartimenti. Copiare l'OCID (Oracle Cloud Identifier) dal compartimento di lavoro.
-
Fare clic su Gruppi dinamici e su Crea gruppo dinamico.
-
Inserire un Nome e una Descrizione. Per questa esercitazione immettere
instance-principal
come nome. Aggiornare l'OCID e fare clic su Crea.
Task 2: Definizione dei criteri
Definire i criteri necessari per il processo di distribuzione.
-
Andare alla console OCI, andare a Identità e sicurezza e Criteri.
-
Fare clic su Crea criterio e immettere un nome, una descrizione e selezionare il compartimento radice.
-
Fare clic su Mostra editor manuale e immettere i criteri seguenti, sostituire
<>
con le informazioni e fare clic su Crea.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
Task 3: (Facoltativo) Creare un'immagine personalizzata
Crea un'immagine personalizzata da un'immagine Ubuntu per i computer GPU. Se necessario.
-
Andare alla console OCI, andare a Computazione e Immagini personalizzate.
-
In Immagini personalizzate fare clic su Importa immagine.
-
Immettere le informazioni riportate di seguito.
- Compartimento: immettere il compartimento.
- Nome: per questa esercitazione immettere
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
come nome. - Sistema operativo (OS): immettere il sistema operativo.
- Selezionare Importa da un URL di storage degli oggetti e immettere l'URL seguente:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
Immettere la posizione dell'immagine nello storage degli oggetti.
-
Mantenere l'altra configurazione per impostazione predefinita e fare clic su Importa immagine. L'uso dell'immagine personalizzata richiederà alcuni minuti.
Task 4: Distribuzione dello stack HPC
Un modo semplice e rapido per distribuire lo stack HPC consiste nell'utilizzare il seguente URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
. Questo URL utilizzerà tutti gli script consigliati e aggiornati per creare l'ambiente.
Nota: per controllare gli aggiornamenti più recenti dello script di distribuzione, andare all'URL:
https://github.com/oracle-quickstart/oci-hpc
. Nel fileREADME.md
fare clic su Distribuisci in Oracle Cloud come mostrato nella seguente immagine.
o
Distribuisci lo stack HPC in modo tradizionale tramite OCI Console.
-
Andare a OCI Console, fare clic su Marketplace e su Tutte le applicazioni.
-
Immettere
HPC solutions
nella barra Cerca. -
Seleziona cluster HPC.
-
Immettere le informazioni necessarie per creare lo stack.
-
Immettere i valori richiesti per configurare le opzioni bastion avanzate.
-
Immettere i parametri di rete del cluster.
-
Fare clic su Crea per inizializzare la distribuzione dello stack.
Creazione dello stack riuscita.
-
Per controllare le istanze create, andare a OCI Console e fare clic su Computazione, Istanze.
Conferma
- Autori - Douglas Silva (LAD A-Team), Leandro Camargo (LAD A-Team)
Altre risorse di apprendimento
Esplora altri laboratori su docs.oracle.com/learn o accedi a più contenuti gratuiti sulla formazione su Oracle Learning YouTube channel. Inoltre, visita education.oracle.com/learning-explorer per diventare Oracle Learning Explorer.
Per la documentazione del prodotto, visitare Oracle Help Center.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98231-01
May 2024