Elaborazione ad alte prestazioni
High Performance Computing (HPC) esegue calcoli complessi ed elabora i dati più velocemente rispetto alla computazione tradizionale. HPC utilizza server Bare Metal, rete di cluster a latenza ultrabassa, opzioni di storage ad alte prestazioni e file system paralleli. Questa infrastruttura consente l'elaborazione parallela per carichi di lavoro a uso intensivo di calcolo come intelligenza artificiale, deep learning, analisi dei dati, simulazioni scientifiche e qualsiasi altro carico di lavoro ad alta intensità.
Introduzione a High Performance Computing
Puoi creare un'istanza HPC a nodo singolo con il workflow di creazione dell'istanza standard. Se si desidera utilizzare più istanze HPC in un gruppo di rete RDMA, è possibile crearle tramite una reti cluster con pool di istanze o cluster di calcolo.
Uso delle reti di cluster RDMA
Le reti di cluster RDMA (Remote Direct Memory Access) sono gruppi di istanze HPC (High Performance Computing), GPU o ottimizzate connesse a una rete a elevata larghezza di banda e a bassissima latenza. Ogni nodo nel cluster è un computer Bare Metal situato in prossimità fisica degli altri nodi. Una rete RDMA (Remote Direct Memory Access) tra i nodi fornisce latenza fino a microsecondi a singola cifra, paragonabile ai cluster HPC on premise.
Le reti cluster sono progettate per carichi di lavoro di computazione parallela altamente impegnativi. Ad esempio:
- Simulazioni di fluidodinamica computazionale per la modellazione automobilistica o aerospaziale
- Modellazione finanziaria e analisi dei rischi
- Simulazioni biomediche
- Analisi e progettazione di traiettorie per l'esplorazione dello spazio
- Carichi di lavoro di intelligenza artificiale e big data
Oracle Cloud Infrastructure offre due tipi di reti cluster. In entrambi i casi, le reti sono gruppi di istanze Bare Metal connesse con una rete a latenza ultra bassa.
- Le reti cluster con pool di istanze consentono di utilizzare i pool di istanze per gestire gruppi di istanze identiche nel gruppo di rete RDMA. Se si desidera una capacità prevedibile per un numero specifico di istanze identiche gestite come gruppo, utilizzare le reti cluster con pool di istanze.
- I cluster di computazione consentono di gestire le istanze nel cluster singolarmente. Quando si crea un cluster di computazione, si crea un gruppo di rete RDMA vuoto. Dopo aver creato il gruppo, è possibile aggiungere istanze al gruppo o eliminare le istanze dal gruppo. Se si desidera gestire le istanze nella rete RDMA in modo indipendente o utilizzare tipi diversi di istanze nel gruppo di rete, utilizzare i cluster di calcolo.
Plugin agente Oracle Cloud per HPC
Oracle Cloud Infrastructure offre un plugin agente cloud specifico per le istanze Bare Metal HPC per semplificare la configurazione e l'autenticazione delle reti HPC e fornire un monitoraggio specializzato per l'elaborazione ad alte prestazioni.
Il plugin HPC è disponibile per HPC in tutte le aree commerciali.
Forma | Immagini supportate | Impostazione predefinita |
---|---|---|
BM.GPU.A10.4 | Ubuntu 20.04+, OL7, OL8, CentOS 7+ | Raccomandato su OCA 1.37.0 o superiore |
BM.GPU.A100 | Ubuntu 20.04+, OL7, OL8, CentOS 7+ | Raccomandato su OCA 1.37.0 o superiore |
BM.GPU.H100.8 | Ubuntu 20.04+, OL7, OL8 | Abilitato su OCA 1.37.0 o versione successiva |
BM.GPU4.8 | Ubuntu 20.04+, OL7, OL8, CentOS 7+ | Raccomandato su OCA 1.37.0 o superiore |
BMHPC2.36 | Ubuntu 20.04+, OL7, OL8, CentOS 7+ | Raccomandato su OCA 1.37.0 o superiore |
BM.Ottimizzato3.36 | Ubuntu 20.04+, OL7, OL8 | Abilitato su OCA 1.37.0 o versione successiva |
- Configurazione automatica
- Applica le impostazioni della scheda di rete consigliate sulle forme GPU
- Applica le impostazioni Mellanox Connect-X consigliate sulle forme GPU
- Assegna gli indirizzi IP alle interfacce di rete RDMA in base alla VCN primaria
- Autenticazione/configurazione RDMA
- Configura le interfacce di rete RDMA con QoS e MTU consigliati
- Configura e gestisce l'autenticazione di rete RDMA necessaria.
- Monitoraggio GPU e RDMA
- Emette ulteriori metriche delle prestazioni RDMA e GPU
Per abilitare il plugin HPC in un'istanza Bare Metal esistente, è necessario creare o eseguire la migrazione dell'istanza esistente in Oracle Cloud Agent 1.35.0 o versione successiva. Per ulteriori informazioni, vedere Agente Oracle Cloud.
Abilitazione delle metriche GPU e RDMA
Quando si installa l'agente Oracle Cloud e si abilita il plugin di monitoraggio HPC, le metriche GPU e RDMA vengono abilitate automaticamente. OCI invia le metriche allo spazio di nomi del cliente e le fattura in base alla tenancy.
Per determinare se queste metriche determineranno costi aggiuntivi, vedere Prezzi di misurazione.
Per un elenco dettagliato delle metriche HPC, vedere Metriche delle istanze di computazione.