Configurare uno stack di cluster HPC per distribuire l'intelligenza artificiale NVIDIA in un'area governativa OCI

Configura e distribuisci un cluster privato di sistemi GPU NVIDIA Bare Metal in Oracle US Government Cloud (FedRAMP High). Tutte le risorse e i dati cloud rimangono sotto la tenancy cloud, offrendoti il controllo completo sulle versioni software, sull'accesso amministrativo, sulle chiavi di cifratura e sulla condivisione delle risorse.

Lo stack di cluster HPC utilizza Terraform per distribuire le risorse Oracle Cloud Infrastructure (OCI). Lo stack crea nodi GPU, storage, networking standard e networking cluster a elevate prestazioni e un nodo bastion/head per l'accesso e la gestione del cluster.

Operazioni preliminari

Scopri di più sulla distribuzione di NVIDIA Enterprise su Oracle Cloud Infrastructure Government Cloud. Vedere Distribuisci il GPU Computing a elevate prestazioni per i carichi di lavoro AI governativi.

Architettura

Questa architettura distribuisce un bastion o un nodo principale, che esegue lo scheduler e può essere utilizzato come server bastion per l'accesso al cluster.

Puoi creare un nodo di elaborazione della computazione, utilizzando una vasta gamma di tipi di istanza GPU NVIDIA, con i tuoi requisiti di elaborazione. Si consiglia di posizionare il nodo di elaborazione della computazione nella subnet privata sicura. Puoi distribuire l'istanza del cluster di computazione GPU NVIDIA da Oracle Cloud Marketplace.

Questa architettura viene distribuita utilizzando reti cloud virtuali pubbliche e private (VCN). La rete del cliente può accedere al nodo principale e al nodo di calcolo solo tramite IPSec VPN, Oracle Cloud Infrastructure FastConnect o la rete Internet pubblica.

L'architettura utilizza un'area con un dominio di disponibilità e subnet regionali. Puoi utilizzare la stessa architettura in un'area con più domini di disponibilità. Si consiglia di utilizzare subnet regionali per la distribuzione, indipendentemente dal numero di domini di disponibilità. Puoi accedere a queste reti di cluster da Oracle Cloud Marketplace o distribuirle manualmente. In entrambi i casi, si consiglia di utilizzare l'architettura di riferimento di base e quindi di modificarla per soddisfare i requisiti specifici.

Il seguente diagramma illustra questa architettura di riferimento.

Descrizione di nvidia-ai-gvt-hpc-oci.png
Descrizione dell'immagine nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

L'architettura presenta i seguenti componenti:

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore consiste in un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le tue applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Host Bastion

    L'host bastion è un'istanza di computazione che funge da punto di accesso sicuro e controllato alla topologia dall'esterno del cloud. Il provisioning dell'host bastion viene in genere eseguito in una zona demilitarizzata (DMZ). Consente di proteggere le risorse sensibili posizionandole in reti private a cui non è possibile accedere direttamente dall'esterno del cloud. La topologia dispone di un singolo punto di accesso noto che è possibile monitorare e controllare regolarmente. Quindi, puoi evitare di esporre i componenti più sensibili della topologia senza comprometterne l'accesso.

  • Nodo di calcolo

    Selezionare la forma GPU Bare Metal in uso in questo cluster. Ad esempio, seleziona BM.GPU4.8 alimentato da 4 GPU NVIDIA A100 Tensor Core, come mostrato nell'esempio precedente, oppure seleziona BM.GPU.H100.8 alimentato da 8 GPU NVIDIA H100 Tensor Core per ottenere vantaggi in termini di prestazioni FP8 utilizzando NVIDIA Transformer Engine.

  • Nodo orchestrazione

    Il nodo di orchestrazione esegue la gestione dei nodi cluster, il provisioning, l'annullamento del provisioning e la distribuzione delle configurazioni software, nonché la gestione dei flussi di lavoro di calcolo e dell'orchestrazione dei job.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

Informazioni su prodotti, servizi e ruoli richiesti

Questa soluzione richiede i seguenti prodotti, servizi e ruoli:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI Enterprise
  • Struttura NVIDIA NeMo

  • NVIDIA Enroot

  • NVIDIA NCCL

Questi sono i ruoli necessari per ogni servizio.

Nome servizio: ruolo Richiesto per...
Oracle Cloud Infrastructure Government Cloud: utente Oracle Cloud per la tenancy Creare un compartimento in Oracle Cloud Infrastructure (OCI), distribuire il cluster GPU e configurare il cluster GPU.
OCI Government Cloud: sicurezza o amministratore di rete Creare o modificare i criteri OCI, in base alle esigenze, per consentire di creare il cluster.
Cloud per il governo OCI: opc Connettersi al bastion per esaminare la configurazione, aggiornare il sistema operativo ed eseguire il carico di lavoro di formazione LLM.

Consulta i prodotti, le soluzioni e i servizi Oracle per ottenere ciò di cui hai bisogno.