Computing ad alte prestazioni

High Performance Computing (HPC) esegue calcoli complessi ed elabora i dati più velocemente rispetto alla computazione tradizionale. HPC utilizza server Bare Metal, rete di cluster a latenza ultrabassa, opzioni di storage ad alte prestazioni e file system paralleli. Questa infrastruttura consente l'elaborazione parallela per carichi di lavoro a uso intensivo di computazione come intelligenza artificiale, deep learning, analisi dei dati, simulazioni scientifiche e qualsiasi altro carico di lavoro ad alta intensità.

Introduzione all'elaborazione ad alte prestazioni

È possibile creare un'istanza HPC a nodo singolo con il workflow di creazione dell'istanza standard. Se si desidera utilizzare più istanze HPC in un gruppo di rete RDMA, è possibile crearle tramite reti cluster con pool di istanze o cluster di computazione.

Uso delle reti di cluster RDMA

Le reti cluster RDMA (Remote Direct Memory Access) sono gruppi di istanze HPC (High Performance Computing), GPU o ottimizzate connesse a una rete a larghezza di banda elevata e a bassissima latenza. Ogni nodo del cluster è un computer Bare Metal situato in prossimità fisica degli altri nodi. Una rete RDMA (Remote Direct Memory Access) tra i nodi fornisce una latenza pari a microsecondi a singola cifra, paragonabile ai cluster HPC on-premise.

Le reti cluster sono progettate per carichi di lavoro di computazione parallela estremamente impegnativi. Ad esempio:

  • Simulazioni di fluidodinamica computazionale per la modellazione automobilistica o aerospaziale
  • Modellazione finanziaria e analisi dei rischi
  • Simulazioni biomediche
  • Analisi e progettazione delle traiettorie per l'esplorazione dello spazio
  • Carichi di lavoro di intelligenza artificiale e big data

Oracle Cloud Infrastructure offre due tipi di reti di cluster. In entrambi i casi, le reti sono gruppi di istanze Bare Metal connesse a una rete a latenza ultra bassa.

  • Le reti cluster con pool di istanze consentono di utilizzare i pool di istanze per gestire gruppi di istanze identiche nel gruppo di rete RDMA. Se si desidera una capacità prevedibile per un numero specifico di istanze identiche gestite come gruppo, utilizzare le reti cluster con pool di istanze.
  • I cluster di computazione consentono di gestire le istanze nel cluster singolarmente. Quando crei un cluster di computazione, crei un gruppo di rete RDMA vuoto. Dopo la creazione del gruppo, è possibile aggiungere istanze al gruppo oppure eliminare istanze dal gruppo. Se si desidera gestire le istanze nella rete RDMA indipendentemente l'una dall'altra o utilizzare tipi diversi di istanze nel gruppo di rete, utilizzare i cluster di computazione.

Plugin agente Oracle Cloud per HPC

Oracle Cloud Infrastructure offre un plugin agente cloud specifico per le istanze Bare Metal HPC per semplificare la configurazione e l'autenticazione delle reti HPC e fornire un monitoraggio specializzato per il computing a elevate prestazioni.

Il plugin HPC è disponibile per HPC in tutte le aree commerciali.

Forme e immagini supportate per HPC
Forma Immagini supportate Impostazione predefinita
BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Abilitato su OCA 1.37.0 o versioni successive
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BMPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Consigliato su OCA 1.37.0 o superiore
BM.Ottimizzato3.36 Ubuntu 20.04+, OL7, OL8 Abilitato su OCA 1.37.0 o versioni successive
I moduli secondari del plugin HPC possono essere abilitati o disabilitati singolarmente:
  • Configurazione automatica
    • Applica le impostazioni consigliate dell'adattatore di rete alle forme GPU
    • Applica le impostazioni Mellanox Connect-X consigliate sulle forme GPU
    • Assegna indirizzi IP alle interfacce di rete RDMA in base alla VCN primaria
  • Autenticazione/configurazione RDMA
    • Configura le interfacce di rete RDMA con QoS e MTU consigliati
    • Configura e gestisce l'autenticazione di rete RDMA necessaria
  • Monitoraggio GPU e RDMA
    • Emette metriche delle prestazioni RDMA e GPU aggiuntive

Per abilitare il plugin HPC in un'istanza Bare Metal esistente, è necessario creare o eseguire la migrazione dell'istanza esistente all'agente Oracle Cloud 1.35.0 o versione successiva. Per ulteriori informazioni, vedere Agente Oracle Cloud.

Abilitazione delle metriche GPU e RDMA

Quando si installa Oracle Cloud Agent e si abilita il plugin di monitoraggio HPC, le metriche GPU e RDMA vengono abilitate automaticamente. OCI invia le metriche allo spazio di nomi dei clienti ed le fattura alla tenancy.

Per determinare se queste metriche generano addebiti aggiuntivi, vedere Prezzi di misurazione.

Per un elenco dettagliato delle metriche HPC, consulta la sezione Metriche delle istanze di computazione.