Distribuisci calcolo a elevate prestazioni (HPC) su Oracle Cloud Infrastructure

Le esigenze dei carichi di lavoro di computazione parallela nella simulazione e nella modellazione possono ora essere gestite in modo efficiente in termini di costi nel cloud.

Distribuisci risorse di computazione a elevate prestazioni (HPC) in una rete cloud a banda alta e a bassa latenza con prestazioni che rivaleggiano con quelle delle reti HPC on-premise, ma con i vantaggi economici e operativi offerti dal cloud computing.

Networking cluster è una tecnologia Oracle Cloud Infrastructure che consente alle istanze HPC di comunicare con una rete a banda alta e a bassa latenza. Ogni nodo del cluster è una macchina a metallo nudo situata in prossimità fisica vicina agli altri nodi. La rete di accesso remoto alla memoria diretta (RDMA) tra i nodi fornisce una latenza inferiore a due microsecondi ed è paragonabile ai cluster HPC in locale. Oracle utilizza il protocollo RDMA su Ethernet convergente o RoCEv2 per la rete cluster.

Le reti a grappolo sono progettate per carichi di lavoro paralleli altamente esigenti, tra cui:

  • Simulazioni computazionali di fluidodinamica per la modellazione automobilistica o aerospaziale

  • Simulazione di Crash

  • Modellazione finanziaria e analisi dei rischi

  • Simulazioni biomediche

  • Analisi e progettazione di traiettorie per l'esplorazione spaziale

  • Intelligenza artificiale e carichi di lavoro di big data

Le reti cluster sono supportate nei seguenti modi:

  • Rete cloud virtuale

    • Subnet pubblico

    • Subnet privata

    • Gateway Internet

    • Gateway NAT

  • Nodi di calcolo

    • Host di base in una subnet pubblica

    • Nodi di calcolo HPC nella subnet privata

Architettura

Questa architettura di riferimento distribuisce un nodo bastione o testa, che esegue lo scheduler e può essere utilizzata come server bastione per l'accesso al cluster.

È possibile creare un nodo di visualizzazione, ad esempio una macchina virtuale GPU (VM) o una macchina Bare Metal, a seconda delle esigenze. Si consiglia di posizionare il nodo di visualizzazione nella subnet pubblica. I carichi di lavoro HPC richiedono spesso strumenti di visualizzazione per la pre-elaborazione, il monitoraggio o l'analisi dell'output delle simulazioni. È possibile distribuire una workstation abilitata per GRID NVIDIA da Oracle Cloud Marketplace.

Questa architettura viene distribuita utilizzando reti cloud virtuali pubbliche e private (VCN). La rete clienti può accedere al nodo principale e al nodo di visualizzazione solo tramite IPSec VPN, Oracle Cloud Infrastructure FastConnect o Internet pubblico.

L'architettura utilizza un'area con un dominio di disponibilità e subnet regionali. È possibile utilizzare la stessa architettura in un'area con più domini di disponibilità. Si consiglia di utilizzare subnet regionali per la distribuzione, indipendentemente dal numero di domini di disponibilità.

È possibile accedere a queste reti cluster da Oracle Cloud Marketplace o distribuirle manualmente. In entrambi i casi, si consiglia di utilizzare l'architettura di riferimento della baseline e quindi di adeguarla per soddisfare le specifiche esigenze.

Il seguente diagramma illustra questa architettura di riferimento.



hpc-oci-architecture.zip

L'architettura ha i seguenti componenti:

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni, e vaste distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center indipendenti e autonomi all'interno di un'area. Le risorse fisiche in ogni dominio di disponibilità vengono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono infrastrutture quali l'alimentazione o il raffreddamento o la rete di dominio di disponibilità interna. È quindi improbabile che un errore a un dominio di disponibilità influenzi gli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore è un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando si distribuiscono risorse su più domini di errore, le applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Rete cloud virtuale (VCN) e subnet

    Un VCN è una rete customizzabile e definita dal software impostata in un'area di Oracle Cloud Infrastructure. Come le reti di data center tradizionali, i VCN consentono di controllare completamente l'ambiente di rete. Un VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato VCN. È possibile segmentare un VCN in subnet, che possono essere definite a un'area o a un dominio di disponibilità. Ogni subnet è costituito da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet in VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Host di base

    L'host bastion è un'istanza di calcolo che funge da punto di accesso sicuro e controllato alla topologia dall'esterno del cloud. L'host bastione viene eseguito in genere in una zona demilitarizzata (DMZ). Consente di proteggere le risorse sensibili inserendole in reti private a cui non è possibile accedere direttamente dall'esterno del cloud. La topologia dispone di un singolo punto di accesso noto che è possibile monitorare e controllare regolarmente. Così, è possibile evitare di esporre i componenti più sensibili della topologia senza compromettere l'accesso a loro.

  • Nodo cluster HPC

    Il nodo principale esegue il provisioning e la deprovizione di questi nodi di calcolo, che sono cluster abilitati per RDMA (rete isolata RoCE v2 da 100 gbps). Elaborano i dati memorizzati nella memorizzazione dei file e restituiscono i risultati alla memorizzazione dei file.

  • Nodo di visualizzazione

    Il nodo di visualizzazione dispone generalmente di un'applicazione 2D o 3D installata per la rappresentazione visiva e l'analisi dei dati elaborati dai nodi cluster HPC.

  • Lista di sicurezza

    Per ogni subnet è possibile creare regole di sicurezza che specifichino l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

Suggerimenti

Utilizzare i suggerimenti riportati di seguito come punto di partenza per distribuire HPC (High Performance Computing) su Oracle Cloud Infrastructure.

Le vostre esigenze potrebbero differire dall'architettura descritta qui.

  • VCN

    Quando si crea un VCN, determinare il numero di blocchi CIDR richiesti e la dimensione di ciascun blocco in base al numero di risorse che si prevede di associare alle subnet in VCN. Utilizzare blocchi CIDR che si trovano all'interno dello spazio degli indirizzi IP privati standard.

    Selezionare blocchi CIDR che non si sovrappongono a nessun'altra rete (in Oracle Cloud Infrastructure, nel data center in locale o in un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato un VCN, è possibile modificare, aggiungere e rimuovere i blocchi CIDR.

    Quando si progettano le subnet, prendere in considerazione il flusso di traffico e i requisiti di sicurezza. Allegare tutte le risorse all'interno di uno specifico livello o ruolo alla stessa subnet, che può fungere da limite di sicurezza.

    Utilizzare subnet regionali.

  • Liste di sicurezza

    Utilizzare gli elenchi di sicurezza per definire le regole di ingresso e uscita applicabili all'intera subnet.

  • Nodo di base

    Utilizzare la forma Calcola di VM.Standard.2.8. Poiché il nodo viene utilizzato come host bastione e per pianificare i job HPC, non richiede storage collegato localmente o elaborazione GPU.

  • Nodo di visualizzazione Utilizzare la forma Calcola di VM.GPU3.2 perché questo nodo viene utilizzato per la visualizzazione ed è probabilmente installato con un'applicazione grafica intensiva.
  • Nodo cluster HPC

    Utilizzare la forma Calcola di BM.HPC2.36. Questa forma dispone di 36 core da due processori 3.7GHz Intel Xeon Gold 6154, 384-GB RAM e 6.4-TB NVME storage locale. Utilizzando potenti GPU NVIDIA disponibili su Oracle Cloud Infrastructure, è possibile post-elaborare i risultati sul cloud mediante la visualizzazione remota.

Considerazioni

Quando si distribuisce HPC (High Performance Computing) su Oracle Cloud Infrastructure, prendere in considerazione queste opzioni di implementazione.

  • Prestazioni

    Per ottenere le migliori prestazioni, scegliere la forma di calcolo corretta con la larghezza di banda appropriata.

  • Disponibilità

    Utilizzare un'opzione ad alta disponibilità in base ai requisiti di distribuzione e all'area. Le opzioni includono l'utilizzo di più domini di disponibilità in un'area e domini di errore.

  • Costo

    Un'istanza GPU bare metal fornisce la potenza CPU necessaria per un costo maggiore. Valuta le tue esigenze per scegliere la forma di calcolo appropriata.

  • Monitoraggio e avvisi

    Impostare il monitoraggio e gli avvisi sull'uso della CPU e della memoria per i nodi, in modo da poter scalare la forma su o giù in base alle esigenze.

Distribuisci

Uno stack Terraform per distribuire questa architettura di riferimento è disponibile come stack in Oracle Cloud Marketplace. È inoltre possibile scaricare il codice da GitHub e personalizzarlo in base alle proprie esigenze.

  • Implementa utilizzando lo stack in Oracle Cloud Marketplace:
    1. Vai a Oracle Cloud Marketplace.
    2. Fare clic su Ottieni applicazione.
    3. Seguire i prompt visualizzati sullo schermo.
  • Distribuire utilizzando il codice in GitHub:
    1. Vai a GitHub.
    2. Copiare o scaricare il repository sul computer locale.
    3. Seguire le istruzioni riportate nel documento README.

Log modifiche

Questo log elenca le modifiche significative: