Nota

Distribuisci un cluster GPU High Performance Computing in Oracle Cloud Infrastructure

Introduzione

L'avvento di potenti modelli di linguaggio di grandi dimensioni (LLM) aumenta la necessità di un'infrastruttura con memoria GPU (Graphics Processing Unit) sufficiente per eseguire attività di tuning e un modo per raggiungere questo obiettivo utilizza un cluster GPU. Oracle Cloud Infrastructure (OCI) ha la possibilità di distribuire un supercluster di GPU NVIDIA A100s e di utilizzare la propria potenza per eseguire o ottimizzare un LLM.

Componenti

La rete cluster è una potente risorsa di OCI per la distribuzione di cluster di computer HPC e GPU connessi da una rete a banda larga e a bassissima latenza. Ogni nodo nel cluster è un computer Bare Metal situato in prossimità fisica degli altri nodi. Una rete RDMA (Remote Direct Memory Access) tra i nodi fornisce una latenza di microsecondi a singola cifra, paragonabile ai cluster HPC (High Performance Computing) in locale. Per ulteriori informazioni, vedere Reti cluster con pool di istanze.

Per distribuire un cluster, è necessario creare un gruppo dinamico con le informazioni sul compartimento dell'area di lavoro, un set di criteri che consentono ai servizi e al gruppo dinamico di eseguire alcuni task, un'immagine personalizzata di un'immagine ISO Ubuntu che deve essere utilizzata dal cluster del nodo e distribuire uno stack Marketplace per distribuire il cluster. Per ulteriori informazioni, vedere Gestione dei gruppi dinamici, Criteri, Immagini personalizzate e Oracle Cloud Marketplace.

Obiettivo

Prerequisiti

Task 1: Creare un gruppo dinamico

Creare una regola di gruppo dinamico con informazioni sull'area di lavoro.

  1. Eseguire il login a OCI Console, passare a Identità e sicurezza e fare clic su Compartimenti. Copiare l'OCID (Oracle Cloud Identifier) dal compartimento di lavoro.

    Immagine 1

  2. Fare clic su Gruppi dinamici e su Crea gruppo dinamico.

  3. Inserire un Nome e una Descrizione. Per questa esercitazione immettere instance-principal come nome. Aggiornare l'OCID e fare clic su Crea.

    Immagine 2

Task 2: Definizione dei criteri

Definire i criteri necessari per il processo di distribuzione.

  1. Andare alla console OCI, andare a Identità e sicurezza e Criteri.

  2. Fare clic su Crea criterio e immettere un nome, una descrizione e selezionare il compartimento radice.

  3. Fare clic su Mostra editor manuale e immettere i criteri seguenti, sostituire <> con le informazioni e fare clic su Crea.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Immagine 3

Task 3: (Facoltativo) Creare un'immagine personalizzata

Crea un'immagine personalizzata da un'immagine Ubuntu per i computer GPU. Se necessario.

  1. Andare alla console OCI, andare a Computazione e Immagini personalizzate.

    Immagine 4

  2. In Immagini personalizzate fare clic su Importa immagine.

    Immagine 5

  3. Immettere le informazioni riportate di seguito.

    • Compartimento: immettere il compartimento.
    • Nome: per questa esercitazione immettere Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 come nome.
    • Sistema operativo (OS): immettere il sistema operativo.
    • Selezionare Importa da un URL di storage degli oggetti e immettere l'URL seguente: https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Immagine 6

  4. Immettere la posizione dell'immagine nello storage degli oggetti.

    Immagine 7

    Immagine 8

  5. Mantenere l'altra configurazione per impostazione predefinita e fare clic su Importa immagine. L'uso dell'immagine personalizzata richiederà alcuni minuti.

    Immagine 9

Task 4: Distribuzione dello stack HPC

Un modo semplice e rapido per distribuire lo stack HPC consiste nell'utilizzare il seguente URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip. Questo URL utilizzerà tutti gli script consigliati e aggiornati per creare l'ambiente.

Nota: per controllare gli aggiornamenti più recenti dello script di distribuzione, andare all'URL: https://github.com/oracle-quickstart/oci-hpc. Nel file README.md fare clic su Distribuisci in Oracle Cloud come mostrato nella seguente immagine.

Immagine 28

o

Distribuisci lo stack HPC in modo tradizionale tramite OCI Console.

  1. Andare a OCI Console, fare clic su Marketplace e su Tutte le applicazioni.

    Immagine 10

  2. Immettere HPC solutions nella barra Cerca.

    Immagine 11

  3. Seleziona cluster HPC.

    Immagine 12

  4. Immettere le informazioni necessarie per creare lo stack.

    Immagine 13

    Immagine 14

    Immagine 15

    Immagine 16

    Immagine 17

    Immagine 18

    Immagine 19

    Immagine 20

  5. Immettere i valori richiesti per configurare le opzioni bastion avanzate.

    Immagine 21

  6. Immettere i parametri di rete del cluster.

    Immagine 22 Immagine 23

  7. Fare clic su Crea per inizializzare la distribuzione dello stack.

    Immagine 24

    Creazione dello stack riuscita.

    Immagine 25

  8. Per controllare le istanze create, andare a OCI Console e fare clic su Computazione, Istanze.

    Immagine 26

    Immagine 27

Conferma

Altre risorse di apprendimento

Esplora altri laboratori su docs.oracle.com/learn o accedi a più contenuti gratuiti sulla formazione su Oracle Learning YouTube channel. Inoltre, visita education.oracle.com/learning-explorer per diventare Oracle Learning Explorer.

Per la documentazione del prodotto, visitare Oracle Help Center.