Distribuisci GPU computing a elevate prestazioni per carichi di lavoro AI governativi

L'aggiunta di NVIDIA DGX Cloud e NVIDIA AI Enterprise a Oracle Cloud Marketplace consente di eseguire rapidamente e facilmente qualsiasi tipo di formazione di grandi modelli per applicazioni di AI generativa su OCI, anche per carichi di lavoro ottimizzati da NVIDIA NeMo Framework, un framework end-to-end cloud nativo per creare, personalizzare e distribuire un'intelligenza artificiale generativa.

L'ambiente di risorse condivise di DGX Cloud potrebbe essere meno adatto ai clienti nelle aree del governo degli Stati Uniti che hanno bisogno di una maggiore sicurezza per mantenere tutti i dati e le risorse sotto il controllo delle proprie tenancy. Abbiamo un'altra soluzione per voi.

Oracle ora semplifica la distribuzione di un cluster privato di sistemi GPU NVIDIA Bare Metal nelle nostre region per Oracle US Government Cloud (FedRAMP High). Tutte le risorse e i dati cloud rimangono sotto la tua tenancy cloud, offrendoti il controllo completo sulle versioni software, sull'accesso amministrativo, sulle chiavi di cifratura e sulla condivisione delle risorse.

Il cluster GPU Oracle con GPU NVIDIA A100 o GPU NVIDIA H100 viene distribuito avviando lo stack del cluster HPC dal Marketplace. Con pochi clic e impostazioni, gli script Terraform e Ansible distribuiscono automaticamente hardware e software per un ambiente cluster con una rete cluster RoCEv2 a latenza ultra-bassa basata su rete NVIDIA, driver di rete cluster, SLURM per la pianificazione dei job, NVIDIA Pyxis ed Enroot per il runtime dei container distribuiti. Trasferisci i tuoi modelli di linguaggio di grandi dimensioni e carichi di lavoro di Machine Learning oppure estrai i container NVIDIA PyTorch e NeMo per eseguire carichi di lavoro compatibili con NVIDIA AI Enterprise interamente all'interno della tua tenancy sicura.

RoCEv2 Le reti cluster sono progettate per carichi di lavoro di elaborazione parallela altamente impegnativi, tra cui:
  • Modelli grandi linguaggi
  • Visione artificiale
  • Machine Learning
  • Simulazione

Architettura

Questa architettura distribuisce un bastion o un nodo principale, che esegue lo scheduler e può essere utilizzato come server bastion per l'accesso al cluster.

Puoi creare un nodo di elaborazione della computazione, utilizzando una vasta gamma di tipi di istanza GPU NVIDIA, con i tuoi requisiti di elaborazione. Si consiglia di posizionare il nodo di elaborazione della computazione nella subnet privata sicura. Puoi distribuire l'istanza del cluster di computazione GPU NVIDIA da Oracle Cloud Marketplace.

Questa architettura viene distribuita utilizzando reti cloud virtuali pubbliche e private (VCN). La rete del cliente può accedere al nodo principale e al nodo di calcolo solo tramite IPSec VPN, Oracle Cloud Infrastructure FastConnect o la rete Internet pubblica.

L'architettura utilizza un'area con un dominio di disponibilità e subnet regionali. Puoi utilizzare la stessa architettura in un'area con più domini di disponibilità. Si consiglia di utilizzare le subnet regionali per la distribuzione, indipendentemente dal numero di domini di disponibilità. Puoi accedere a queste reti di cluster da Oracle Cloud Marketplace o distribuirle manualmente. In entrambi i casi, si consiglia di utilizzare l'architettura di riferimento di base e quindi di modificarla per soddisfare i requisiti specifici.

Il seguente diagramma illustra questa architettura di riferimento.

Descrizione di nvidia-ai-gvt-hpc-oci.png
Descrizione dell'immagine nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architettura presenta i seguenti componenti:

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore consiste in un gruppo di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le tue applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Rete e subnet del cloud virtuale (VCN)

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Host Bastion

    L'host bastion è un'istanza di computazione che funge da punto di accesso sicuro e controllato alla topologia dall'esterno del cloud. Il provisioning dell'host bastion viene in genere eseguito in una zona demilitarizzata (DMZ). Ti consente di proteggere le risorse sensibili posizionandole in reti private a cui non è possibile accedere direttamente dall'esterno del cloud. La topologia dispone di un singolo punto di accesso noto che è possibile monitorare e controllare regolarmente. È quindi possibile evitare di esporre i componenti più sensibili della topologia senza compromettere l'accesso a tali componenti.

  • nodo di calcolo

    Selezionare la forma GPU Bare Metal in uso in questo cluster. Ad esempio, seleziona BM.GPU4.8 alimentato da 4 GPU NVIDIA A100 Tensor Core, come mostrato nell'esempio precedente, oppure seleziona BM.GPU.H100.8 alimentato da 8 GPU NVIDIA H100 Tensor Core per ottenere vantaggi in termini di prestazioni FP8 utilizzando NVIDIA Transformer Engine.

  • Nodo di orchestrazione

    Il nodo di orchestrazione esegue la gestione dei nodi del cluster, il provisioning, l'annullamento del provisioning e la distribuzione delle configurazioni software, nonché la gestione dei flussi di lavoro di calcolo e dell'orchestrazione dei job.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

Suggerimenti

Utilizza i seguenti suggerimenti come punto di partenza per implementare l'high-performance computing (HPC) su Oracle Cloud Infrastructure e personalizzali per soddisfare i tuoi requisiti specifici, se necessario.
  • VCN

    Quando crei una VCN, determina il numero di blocchi CIDR necessari e la dimensione di ciascun blocco in base al numero di risorse che intendi collegare alle subnet nella VCN. Utilizzare i blocchi CIDR all'interno dello spazio di indirizzi IP privati standard.

    Selezionare i blocchi CIDR che non si sovrappongono a qualsiasi altra rete (in Oracle Cloud Infrastructure, nel data center on premise o in un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato una VCN, puoi modificarne, aggiungerne e rimuoverne i blocchi CIDR.

    Quando si progettano le subnet, considerare il flusso di traffico e i requisiti di sicurezza. Collega tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può fungere da limite di sicurezza.

    Utilizzare le subnet regionali.

  • Elenchi di sicurezza

    Utilizza le liste di sicurezza per definire regole di entrata e uscita che si applicano all'intera subnet.

  • Nodo Bastion

    Utilizzare il file VM.Standard.E5. Forma di calcolo Flex. Poiché il nodo viene utilizzato come host bastion e per pianificare i job HPC, non richiede l'elaborazione di storage o GPU collegato in locale.

  • Nodo cluster di calcolo GPU

    Utilizzare la forma di computazione BM.GPU.A100.-v2.8 perché questo nodo viene utilizzato per i flussi di lavoro di computazione GPU e i job a uso intensivo di computazione.

Considerazioni

Quando si distribuisce HPC (High-Performance Computing) su Oracle Cloud Infrastructure, prendere in considerazione queste opzioni di implementazione.

  • Prestazioni

    Per ottenere le prestazioni migliori, scegli la forma di computazione corretta con la larghezza di banda appropriata.

  • Disponibilità

    Prendi in considerazione l'utilizzo di un'opzione ad alta disponibilità in base ai requisiti di distribuzione e all'area geografica. Le opzioni includono l'uso di più domini di disponibilità in un'area e nei domini di errore.

  • Costo

    Un'istanza GPU Bare Metal fornisce la potenza CPU necessaria a un costo maggiore. Valuta i tuoi requisiti per scegliere la forma di computazione appropriata.

  • Monitoraggio e avvisi

    Impostare il monitoraggio e gli avvisi sull'uso della CPU e della memoria per i nodi, in modo da poter eseguire lo scale up o lo scale down della forma in base alle esigenze.

Distribuire

Uno stack Terraform per distribuire questa architettura di riferimento è disponibile come stack in Oracle Cloud Marketplace. È inoltre possibile scaricare il codice da GitHub e personalizzarlo in base alle proprie esigenze.

Conferme

  • Autore: Kevin Colwell
  • Collaboratori: Neil Pierson, George Boateng, Travis Lee, Michael Rutledge