Computing ad alte prestazioni

High Performance Computing (HPC) esegue calcoli complessi ed elabora i dati più velocemente rispetto alla computazione tradizionale. HPC utilizza server Bare Metal, rete di cluster a latenza ultrabassa, opzioni di storage ad alte prestazioni e file system paralleli. Questa infrastruttura consente l'elaborazione parallela per carichi di lavoro a uso intensivo di computazione come intelligenza artificiale, deep learning, analisi dei dati, simulazioni scientifiche e qualsiasi altro carico di lavoro ad alta intensità.

Introduzione all'elaborazione ad alte prestazioni

È possibile creare un'istanza HPC a nodo singolo con il workflow di creazione dell'istanza standard. Se si desidera utilizzare più istanze HPC in un gruppo di rete RDMA, è possibile crearle tramite reti cluster con pool di istanze o cluster di computazione. Puoi anche distribuire cluster di memoria GPU, trasformando un gruppo di GPU in un unico supercomputer AI in grado di gestire carichi di lavoro di AI e calcolo ad alte prestazioni.

Uso delle reti di cluster RDMA

Le reti cluster RDMA (Remote Direct Memory Access) sono gruppi di istanze HPC (High Performance Computing), GPU o ottimizzate connesse a una rete a larghezza di banda elevata e a bassissima latenza. Ogni nodo del cluster è un computer Bare Metal situato in prossimità fisica degli altri nodi. Una rete RDMA (Remote Direct Memory Access) tra i nodi fornisce una latenza pari a microsecondi a singola cifra, paragonabile ai cluster HPC on-premise.

Le reti cluster sono progettate per carichi di lavoro di computazione parallela estremamente impegnativi. Ad esempio:

  • Carichi di lavoro di intelligenza artificiale e big data
  • Simulazioni di fluidodinamica computazionale per la modellazione automobilistica o aerospaziale
  • Modellazione finanziaria e analisi dei rischi
  • Simulazioni biomediche
  • Analisi e progettazione delle traiettorie per l'esplorazione dello spazio

Oracle Cloud Infrastructure offre due tipi di reti di cluster. In entrambi i casi, le reti sono gruppi di istanze Bare Metal connesse a una rete a latenza ultra bassa.

  • Le reti cluster con pool di istanze consentono di utilizzare i pool di istanze per gestire gruppi di istanze identiche nel gruppo di rete RDMA. Se si desidera una capacità prevedibile per un numero specifico di istanze identiche gestite come gruppo, utilizzare le reti cluster con pool di istanze.
  • I cluster di computazione consentono di gestire le istanze nel cluster singolarmente. Quando crei un cluster di computazione, crei un gruppo di rete RDMA vuoto. Dopo la creazione del gruppo, è possibile aggiungere istanze al gruppo oppure eliminare istanze dal gruppo. Se si desidera gestire le istanze nella rete RDMA indipendentemente l'una dall'altra o utilizzare tipi diversi di istanze nel gruppo di rete, utilizzare i cluster di computazione.

Uso dei cluster di memoria GPU

Per supportare i carichi di lavoro di intelligenza artificiale e computazione a elevate prestazioni, puoi anche distribuire cluster di memoria GPU insieme AI cluster di computazione. I cluster di memoria GPU consentono di raggruppare e gestire le istanze che utilizzano un'architettura specializzata e operano come host unificati all'interno di un dominio fabric di memoria GPU condiviso e ad alte prestazioni, consentendo una comunicazione a larghezza di banda ultraelevata e a bassa latenza.

L'istanza degli host che fanno parte del cluster di memoria GPU viene creata come parte del cluster di calcolo specificato (e richiesto) e opera in un dominio isolato dall'hardware per motivi di sicurezza.

Plugin agente Oracle Cloud per HPC

Oracle Cloud Infrastructure offre un plugin agente cloud specifico per le istanze Bare Metal HPC per semplificare la configurazione e l'autenticazione delle reti HPC e fornire un monitoraggio specializzato per il computing a elevate prestazioni.

Il plugin HPC è disponibile per HPC in tutte le aree commerciali.

Forme e immagini supportate per HPC
Forma Immagini supportate Impostazione predefinita
BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Abilitato su OCA 1.37.0 o versioni successive
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BMPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.Ottimizzato3.36 Ubuntu 20.04+, OL7, OL8 Abilitato su OCA 1.37.0 o versioni successive
I moduli secondari del plugin HPC possono essere abilitati o disabilitati singolarmente:
  • Configurazione automatica
    • Applica le impostazioni consigliate dell'adattatore di rete alle forme GPU
    • Applica le impostazioni Mellanox Connect-X consigliate sulle forme GPU
    • Assegna indirizzi IP alle interfacce di rete RDMA in base alla VCN primaria
  • Autenticazione/configurazione RDMA
    • Configura le interfacce di rete RDMA con QoS e MTU consigliati
    • Configura e gestisce l'autenticazione di rete RDMA necessaria
  • Monitoraggio GPU e RDMA
    • Emette metriche delle prestazioni RDMA e GPU aggiuntive

Per abilitare il plugin HPC in un'istanza Bare Metal esistente, è necessario creare o eseguire la migrazione dell'istanza esistente all'agente Oracle Cloud 1.35.0 o versione successiva. Per ulteriori informazioni, vedere Agente Oracle Cloud.

Abilitazione delle metriche GPU e RDMA

Quando si installa Oracle Cloud Agent e si abilita il plugin di monitoraggio HPC, le metriche GPU e RDMA vengono abilitate automaticamente. OCI invia le metriche allo spazio di nomi dei clienti ed le fattura alla tenancy.

Per determinare se queste metriche generano addebiti aggiuntivi, vedere Prezzi di misurazione.

Per un elenco dettagliato delle metriche HPC, consulta la sezione Metriche delle istanze di computazione.