Distribuisci un cluster GPU Bare Metal per i carichi di lavoro AI in un cloud dedicato

L'implementazione di carichi di lavoro per l'intelligenza artificiale, il machine learning e i modelli di deep learning per la modellazione linguistica può, in alcuni casi, avere requisiti rigorosi per la residenza, la sicurezza e la conformità dei dati.

Per questi carichi di lavoro, Oracle Cloud offre diversi modelli operativi e di distribuzione distribuiti, tra cui cloud governativo, cloud sovrano e cloud dedicato. Una di queste soluzioni è Oracle Cloud Infrastructure Dedicated Region, una cloud region distribuita in un data center controllato dal cliente con gli stessi servizi e le stesse funzionalità dell'infrastruttura delle cloud region pubbliche di Oracle.

Nelle region cloud pubbliche e dedicate, Oracle Cloud Infrastructure (OCI) consente l'accesso diretto a un cluster server bare metal alimentato da GPU ad alte prestazioni e reti cluster RoCEv2 Oracle. Il cluster GPU bare metal offre il miglior rapporto prezzo/prestazioni del settore per la distribuzione di AI, ML o DL dedicati.

Architettura

Questa architettura dimostra la relazione tra i vari componenti di un sistema tipico con il cluster GPU Bare Metal HPC alla base.

Natural Language Processing è un modello di deep learning pre-addestrato. Ogni modello varia nella sua complessità e può essere dimensionato per le prestazioni ottimali in base alle specifiche del processore GPU e alla memoria necessaria per contenere i suoi parametri. Alcuni dei modelli più grandi contengono centinaia di miliardi di parametri, che richiedono un'enorme quantità di memoria e capacità di elaborazione per eseguire il modello in tempo reale, il che è fondamentale per le applicazioni di inferenza AI.

Con modelli più grandi è necessario avere non solo una singola istanza multi-GPU, ma anche un cluster di centinaia di GPU che lavorano insieme. Queste istanze richiedono anche l'uso di un file system cluster in esecuzione sulla rete cluster per fornire sia IOPS elevati che la migliore latenza possibile per le operazioni tra i nodi nel cluster.

Per fornire questo file system a bassa latenza e larghezza di banda elevata Oracle Cloud Infrastructure (OCI) utilizza la rete di cluster a bassa latenza di Oracle, basata su RDMA (Remote Direct Memory Access), in esecuzione su Ethernet convergente (RoCE) con latenza inferiore a 10 microsecondi tra i nodi. RDMA consente connessioni a bassa latenza tra i nodi e l'accesso alla memoria GPU senza coinvolgere la CPU. OCI consente al cliente di raggruppare in cluster fino a 4096 nodi Bare Metal, ciascuno con 8 GPU, fino a 32768 GPU.

OCI fornisce più soluzioni di storage a basse latenza e ad alte prestazioni per i carichi di lavoro AI/ML, come l'SSD NVMe locale, la rete e i file system paralleli. Il server Bare Metal OCI viene fornito con lo storage locale SSD NVMe. Può essere utilizzato per creare un file system NFS o Parallel File System (BeeOND, Weka) temporaneo. Utilizzando la funzione multi-attach per volumi a blocchi, puoi utilizzare un singolo volume per memorizzare l'intero data set di formazione e collegarlo a più istanze GPU. In alternativa, puoi utilizzare Bare Metal o VM e lo storage a blocchi a livello di prestazioni bilanciato per creare file server con throughput più elevato e costi inferiori, con NFS-HA, FSS o file system parallelo (Weka.io, Spectrum Scale, BeeGFS, BeeOND). I risultati della formazione vengono salvati in Oracle Cloud Infrastructure Object Storage per lo storage a lungo termine.

Il seguente diagramma illustra questa architettura di riferimento.

Descrizione di architecture-bm-gpu-dedicated-region.png
Descrizione dell'immagine architecture-bm-gpu-dedicated-region.png

architecture-bm-gpu-dedicated-region-oracle.zip

L'architettura presenta i seguenti componenti:

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Cloud Guard

    Puoi utilizzare Oracle Cloud Guard per monitorare e gestire la sicurezza delle tue risorse in Oracle Cloud Infrastructure. Cloud Guard utilizza ricette del rilevatore che è possibile definire per esaminare le risorse per individuare eventuali punti deboli della sicurezza e per monitorare operatori e utenti per determinate attività rischiose. Quando viene rilevata una configurazione errata o un'attività non sicura, Cloud Guard consiglia azioni correttive e aiuta a eseguire tali azioni, in base alle ricette dei rispondenti che è possibile definire.

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore consiste in un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le tue applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Compartimento

    I compartimenti sono partizioni logiche tra più aree all'interno di una tenancy Oracle Cloud Infrastructure. Usare i compartimenti per organizzare le risorse in Oracle Cloud, controllare l'accesso alle risorse e impostare le quote d'uso. Per controllare l'accesso alle risorse in un determinato compartimento, definire criteri che specificano chi può accedere alle risorse e quali azioni possono eseguire.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • VPN da sito a sito

    La VPN da sito a sito fornisce la connettività IPSec VPN tra la rete on premise e le reti VCN in Oracle Cloud Infrastructure. La suite di protocolli IPSec cifra il traffico IP prima del trasferimento dei pacchetti dall'origine alla destinazione e decifra il traffico all'arrivo.

  • FastConnect

    Oracle Cloud Infrastructure FastConnect consente di creare facilmente una connessione dedicata e privata tra il data center e Oracle Cloud Infrastructure. FastConnect offre opzioni per una maggiore larghezza di banda e un'esperienza di rete più affidabile se confrontata con le connessioni basate su Internet.

  • Gateway di instradamento dinamico (DRG)

    Il gateway DRG è un router virtuale che fornisce un percorso per il traffico di rete privato tra VCN nella stessa area, tra una VCN e una rete esterna all'area, ad esempio una VCN in un'altra area Oracle Cloud Infrastructure, una rete on premise o una rete in un altro provider cloud.

  • Gateway NAT (Network Address Translation)

    Un gateway NAT consente alle risorse private in una VCN di accedere agli host su Internet, senza esporre tali risorse alle connessioni Internet in entrata.

  • Gateway Internet

    Il gateway Internet consente il traffico tra le subnet pubbliche in una VCN e la rete Internet pubblica.

  • Gateway del servizio

    Il gateway di servizi fornisce l'accesso da una VCN ad altri servizi, come Oracle Cloud Infrastructure Object Storage. Il traffico dalla VCN al servizio Oracle viaggia sul fabric di rete Oracle e non attraversa Internet.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

  • Tabella di instradamento

    Le tabelle di instradamento virtuali contengono regole per instradare il traffico dalle subnet alle destinazioni esterne a una VCN, in genere attraverso i gateway.

  • Host Bastion

    L'host bastion è un'istanza di computazione che funge da punto di accesso sicuro e controllato alla topologia dall'esterno del cloud. Il provisioning dell'host bastion viene in genere eseguito in una zona demilitarizzata (DMZ). Consente di proteggere le risorse sensibili posizionandole in reti private a cui non è possibile accedere direttamente dall'esterno del cloud. La topologia dispone di un singolo punto di accesso noto che è possibile monitorare e controllare regolarmente. Quindi, puoi evitare di esporre i componenti più sensibili della topologia senza comprometterne l'accesso.

  • Nodo bastion (Nodo intestazione)

    Il nodo bastion (nodo principale) utilizza un portale basato sul Web per connettersi al nodo principale e pianificare i job. La richiesta di job passa da Oracle Cloud Infrastructure FastConnect o IPSec VPN al nodo principale. Il nodo principale invia inoltre il data set del cliente allo storage dei file e può eseguire alcune operazioni di pre-elaborazione sui dati. Il nodo principale può eseguire il provisioning dei cluster di nodi ed eliminare i cluster al completamento del job.

  • Pool di istanze

    Un pool di istanze è un gruppo di istanze all'interno di un'area creata dalla stessa configurazione di istanza e gestita come gruppo.

    I pool di istanze consentono di creare e gestire più istanze di computazione all'interno della stessa area di un gruppo. Inoltre, consentono l'integrazione con altri servizi, come il servizio Oracle Cloud Infrastructure Load Balancing e il servizio Oracle Cloud Infrastructure Identity and Access Management.

  • Storage degli oggetti

    Lo storage degli oggetti offre un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio. Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.

Suggerimenti

Utilizzare i suggerimenti riportati di seguito come punto di partenza e personalizzarli in modo da soddisfare esigenze specifiche.
  • VCN

    Quando crei una VCN, determina il numero di blocchi CIDR necessari e la dimensione di ciascun blocco in base al numero di risorse che intendi collegare alle subnet nella VCN. Utilizza blocchi CIDR all'interno dello spazio di indirizzi IP privati standard.

    Selezionare i blocchi CIDR che non si sovrappongono ad altre reti (in Oracle Cloud Infrastructure, nel data center on premise o in un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato una VCN, puoi modificare, aggiungere e rimuovere i relativi blocchi CIDR.

    Quando progetti le subnet, considera il flusso di traffico e i requisiti di sicurezza. Collega tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può fungere da limite di sicurezza.

    Utilizzare le subnet regionali.

  • Sicurezza

    Utilizza Oracle Cloud Guard per monitorare e mantenere in modo proattivo la sicurezza delle tue risorse in Oracle Cloud Infrastructure. Cloud Guard utilizza ricette del rilevatore che è possibile definire per esaminare le risorse alla ricerca di punti deboli nella sicurezza e per monitorare operatori e utenti per determinate attività rischiose. Quando viene rilevata un'attività di configurazione errata o non sicura, Cloud Guard consiglia azioni correttive e aiuta a eseguire tali azioni, in base alle ricette del rispondente che è possibile definire.

    Per le risorse che richiedono una maggiore sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una ricetta definita da Oracle dei criteri di sicurezza che si basano sulle best practice. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili dalla rete Internet pubblica e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando crei e aggiorni le risorse in una zona di sicurezza, Oracle Cloud Infrastructure convalida le operazioni in base ai criteri nella ricetta della zona di sicurezza e nega le operazioni che violano uno qualsiasi dei criteri.

  • Cloud Guard

    Duplica e personalizza le ricette predefinite fornite da Oracle per creare ricette personalizzate del rilevatore e del rispondente. Queste ricette consentono di specificare il tipo di violazione della sicurezza che genera un'avvertenza e le azioni consentite per l'esecuzione. Ad esempio, potresti voler rilevare i bucket di storage degli oggetti con visibilità impostata su Pubblico.

    Applica Cloud Guard a livello di tenancy per coprire l'ambito più ampio e ridurre l'onere amministrativo legato alla gestione di più configurazioni.

    È inoltre possibile utilizzare la funzione Lista gestita per applicare determinate configurazioni ai rilevatori.

  • Sicurezza delle zone

    Per le risorse che richiedono una maggiore sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una ricetta definita da Oracle dei criteri di sicurezza che si basano sulle best practice. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili dalla rete Internet pubblica e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando crei e aggiorni le risorse in una zona di sicurezza, Oracle Cloud Infrastructure convalida le operazioni in base ai criteri nella ricetta della zona di sicurezza e nega le operazioni che violano uno qualsiasi dei criteri.

  • Gruppi di sicurezza di rete (NSG)

    Puoi utilizzare i gruppi NSG per definire un set di regole in entrata e in uscita che si applicano a VNIC specifiche. Si consiglia di utilizzare i gruppi NSG anziché gli elenchi di sicurezza, poiché i gruppi NSG consentono di separare l'architettura subnet della VCN dai requisiti di sicurezza dell'applicazione.

  • Nodi GPU

    Distribuisci le forme Bare Metal della GPU per ottenere prestazioni complete.

    Cluster fino a 32.768 GPU.

Considerazioni

Considerare i seguenti punti durante la distribuzione di questa architettura di riferimento.

  • Disponibilità

    Prendi in considerazione l'utilizzo di un'opzione ad alta disponibilità, in base ai requisiti di distribuzione e all'area geografica. Le opzioni includono l'uso di più domini di disponibilità in un'area e nei domini di errore.

    • Monitoraggio e avvisi

      Impostare il monitoraggio e gli avvisi sull'uso della CPU e della memoria per i nodi, in modo da poter eseguire lo scale up o lo scale down della forma in base alle esigenze.

    • Costo

      Un'istanza GPU Bare Metal fornisce la potenza CPU necessaria a un costo maggiore. Valuta i tuoi requisiti per scegliere la forma di computazione appropriata.

      È possibile eliminare il cluster quando non sono in esecuzione job.

      Tenere presente che le istanze Bare Metal continuano a sostenere costi operativi mentre non sono accese. Devono essere cessati per non incorrere in addebiti.

  • File system cluster
    Esistono più scenari:
    • Storage SSD NVMe locale fornito con forme di storage GPU, HPC e a elevate prestazioni.
    • I volumi a blocchi multi-attach offrono throughput di I/O fino a 2.680 MB/s o IOPS da 700 KB.
    • Puoi anche installare il tuo file system parallelo sullo storage SSD NVMe o sullo storage a blocchi, a seconda dei requisiti di prestazioni. OCI fornisce soluzioni basate su NFS (NFS-HA, FSS) o file system parallelo (weka.io, Spectrum Scale, BeeGFS, BeeOND, Lustre, Gluster, Quobyte), vedere "Scopri di più". Rivolgiti allo specialista del supporto per progettare le soluzioni più ottimali per le tue esigenze.

Riconoscimenti

  • Autore: Michael Rutledge