Punch Torino: Distribuzione del cluster HPC (High-Performance Computing) su Oracle Cloud
Per velocizzare il runtime delle simulazioni della fluidodinamica computazionale, il produttore del motore italiano tier-1, Punch Torino, ha trasferito la propria piattaforma CFD in Oracle Cloud Infrastructure (OCI).
Usando Oracle Cloud Infrastructure High-Performance Computing (HPC), gli ingegneri di Punch Torino sono ora in grado di eseguire carichi di lavoro di simulazione e test su CPU, memoria e I/O ad alta intensità fino al 24% più velocemente con un 33% di core di calcolo in meno.
In collaborazione con società di consulenza informatica ad alte prestazioni, Doit Systems, l'ambiente di produzione di Punch Torino è andato in diretta in sole dieci settimane dopo il completamento della prova di accettazione.
Nella tenancy Oracle Cloud Infrastructure, Punch Torino esegue le applicazioni Abaqus, Converge, StarCCM+, Optistruct.
Le funzioni uniche per la distribuzione di Punch Torino su Oracle Cloud Infrastructure includono:
- I server Bare Metal HPC abbinati al cluster di Oracle offrono accesso a una latenza RDMA a latenza ultrabassa (< 2 μs su cluster di decine di migliaia di memorie centrali) tramite la rete Ethernet converged (RoCE) v2
- Facilità di utilizzo negli strumenti di automazione HPC per lo scale-up e down dei server Bare Metal in pochi minuti
- La topologia di rete piatta e a due livelli di Oracle offre una larghezza di banda e una latenza uniformi in tutti i nodi, consentendo ai cluster HPC di eseguire lo scale-up lineare
- Storage con throughput High I/O con l'SSD NVMe 6.4TB collegato localmente all'istanza Bare Metal
Per le implementazioni future, Punch Torino sta valutando anche:
- Nuovi tipi di istanze di computazione, ad esempio X9 ottimizzato
- FastConnect per trasferire più dati e ridurre la latenza nelle sessioni remote sui nodi GPU
Architettura
Gli utenti di Punch Torino accedono alle applicazioni utilizzando una rete privata virtuale (VPN) dall'applicazione Web del centro di accesso e controllo on premise, che è un'applicazione Web Altair Access. Il sistema Active Directory on premise esegue l'autenticazione utilizzando Oracle Cloud Infrastructure Identity and Access Management, pertanto gli utenti non dispongono dell'accesso diretto al cluster HPC (High-Performance Computing).
Il nodo di controllo attiva i nodi del cluster HPC su richiesta. Quando i nodi sono pronti, il nodo di controllo separa il processo in più parti e li sottomette per l'elaborazione simultanea. Lo scheduler dei controlli ridimensiona automaticamente i nodi di calcolo tramite le API REST. Il cluster HPC esegue il provisioning delle istanze Bare Metal su richiesta. Le simulazioni sono in genere ottimizzate per il completamento tra cinque e sei ore.
- Le simulazioni richiedono un elevato throughput di I/O utilizzando lo storage a caldo fornito dallo storage locale SSD NVMe 6.4TB collegato all'istanza Bare Metal.
- I risultati vengono memorizzati nella memoria calda (file) per l'analisi.
- La sessione di analisi grafica remota copia i file nello storage a caldo (blocco) collegato all'istanza VM per un rendering rapido.
Il diagramma riportato di seguito illustra questa architettura di riferimento.
punch-torino-oci-arch-oracle.zip
Il diagramma riportato di seguito mostra il flusso dei dati nell'architettura.
punch-torino-oci-flow-oracle.zip
- Gli utenti avviano l'accesso alle applicazioni dall'accesso e dal centro di controllo on premise.
- Active Directory in locale consente di autenticare l'utente.
- Il server delle licenze on-premise fornisce le licenze disponibili.
- Il centro di controllo e accesso on premise riunisce i nodi del cluster HPC su richiesta.
- Gli utenti caricano il file di simulazione (fino a 50 GB) nello storage di file ("warm").
- Il file di simulazione viene copiato nello storage SSD locale ("hot") e i risultati vengono salvati nello storage di file.
- Il centro di controllo e accesso on-premise riunisce i nodi visivi su richiesta.
- Il file di simulazione viene copiato dallo storage di file allo storage "hot" per l'elaborazione da parte del nodo visivo.
- I risultati vengono salvati nello storage degli oggetti ("freddo") per lo storage a lungo termine.
L'architettura prevede i componenti elencati di seguito.
- Area
Un'area Oracle Cloud Infrastructure è un'area geografica localizzata contenente uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e le grandi distanze possono separarle (tra paesi o addirittura continenti).
- Gestione delle identità e degli accessi (IAM)
Oracle Cloud Infrastructure Identity and Access Management (IAM) ti consente di controllare chi può accedere alle tue risorse in Oracle Cloud Infrastructure e le operazioni che possono eseguire su tali risorse.
- Audit
Il servizio Oracle Cloud Infrastructure Audit registra automaticamente le chiamate a tutti gli endpoint API (API) dell'interfaccia di programmazione delle applicazioni pubbliche Oracle Cloud Infrastructure supportati come eventi di log. Al momento, tutti i servizi supportano il log tramite Oracle Cloud Infrastructure Audit.
- Dominio di disponibilità
I domini di disponibilità sono data center indipendenti e standalone all'interno di un'area geografica. Le risorse fisiche presenti in ciascun dominio di disponibilità sono isolate dalle risorse presenti negli altri domini di disponibilità, il che garantisce la tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento, né la rete interna del dominio di disponibilità. Pertanto, è improbabile che un errore di un dominio di disponibilità influisca sugli altri domini di disponibilità nell'area.
- Rete cloud virtuale (VCN) e subnet
Una VCN è una rete personalizzabile e definita dal software impostata dall'utente in un'area Oracle Cloud Infrastructure. Come le reti di data center tradizionali, le VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. È possibile segmentare una VCN in subnet, che può essere definita in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono con le altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.
- Lista di sicurezza
Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.
- Tabella di instradamento
Le tabelle di instradamento virtuale contengono regole per instradare il traffico dalle subnet alle destinazioni esterne a una VCN, in genere tramite i gateway.
- Gateway di instradamento dinamico (DRG)
Il gateway DRG è un router virtuale che fornisce un percorso per il traffico di rete privato tra una VCN e una rete esterna all'area geografica, ad esempio una VCN in un'altra area Oracle Cloud Infrastructure, una rete on premise o una rete in un altro provider cloud.
- Elaborazione ad alte prestazioni
Progettato per carichi di lavoro informatici altamente performanti che richiedono core di processore ad alta frequenza e networking cluster per carichi di lavoro HPC intensamente paralleli.
I server Bare Metal Oracle Cloud Infrastructure abbinati al networking cluster di Oracle offrono accesso a RDMA a latenza ultrabassa (< 2 μs di latenza in cluster di decine di migliaia di core) tramite Ethernet converged (RoCE) v2.
- Virtual Machine
Il servizio Oracle Cloud Infrastructure Compute consente di eseguire il provisioning e la gestione degli host di calcolo nel cloud. Puoi avviare le istanze di computazione con le navi che soddisfano i requisiti delle tue risorse in termini di CPU, memoria, larghezza di banda della rete e storage. Dopo aver creato un'istanza di computazione, puoi accedervi in modo sicuro, riavviarla, collegare e scollegare i volumi e arrestarli quando non ne hai più bisogno.
I server Bare Metal di Oracle offrono ai clienti isolamento, visibilità e controllo utilizzando istanze di computazione dedicate. I server supportano applicazioni che richiedono elevato numero di core, grandi quantità di memoria ed elevata larghezza di banda. Scalano fino a 160 core (la più grande del settore), 2 TB di RAM e fino a 1 PB di storage a blocchi. I clienti possono creare ambienti cloud sui server Bare Metal di Oracle con notevoli miglioramenti a livello di prestazioni rispetto ad altri cloud pubblici e ai data center on premise.
- Storage degli oggetti
Lo storage degli oggetti consente un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati quali immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. È possibile scalare perfettamente lo storage senza compromettere le prestazioni o l'affidabilità dei servizi. Utilizzare lo storage standard per lo storage "hot" necessario per accedere rapidamente, immediatamente e di frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si conserva per lunghi periodi di tempo e raramente o raramente si accede.
- Storage file
Il servizio Storage di file Oracle Cloud Infrastructure fornisce un file system di rete di livello Enterprise duraturo, scalabile, sicuro e sicuro. Puoi connetterti a un file system del servizio di storage di file da qualsiasi istanza Bare Metal, virtual machine o container all'interno di una rete VCN. Inoltre, puoi accedere a un file system dall'esterno della VCN utilizzando Oracle Cloud Infrastructure FastConnect e una VPN IPSec.
- Volume a blocchi
Grazie ai volumi di storage a blocchi, puoi creare, collegare, connettere e spostare i volumi di storage e modificare le prestazioni dei volumi per soddisfare i requisiti di storage, prestazioni e applicazioni. Dopo aver collegato un volume a un'istanza, è possibile utilizzare il volume come un normale disco rigido. Puoi anche disconnettere un volume e collegarlo a un'altra istanza senza perdere i dati.
Acquisito e distribuito in primo piano
Vuoi mostrare cosa hai costruito su Oracle Cloud Infrastructure? Ti invitiamo a condividere le lezioni apprese, le best practice e le architetture di riferimento con la nostra community globale di architetti cloud? Vi aiutiamo a iniziare.
- Scarica il modello (PPTX)
Illustrare l'architettura di riferimento trascinando le icone nel wireframe di esempio.
- Guarda l'esercitazione sull'architettura
Ottieni istruzioni dettagliate su come creare un'architettura di riferimento.
- Sottomettere il diagramma
Inviaci un'e-mail con il tuo diagramma. I nostri architetti cloud esamineranno il diagramma e ti contatteranno per discutere della tua architettura.
Visualizza altro
Ulteriori informazioni sulle funzioni di questa architettura.
Informazioni su Oracle Cloud Infrastructure:
- Struttura sulle migliori prassi per Oracle Cloud Infrastructure
- Gestione delle reti di cluster
- Documentazione di Oracle Cloud Infrastructure
Architetture di riferimento correlate:
- Distribuisci HPC (High Performance Computing) su Oracle Cloud Infrastructure
- Implementa un'infrastruttura desktop virtuale (VDI) con computazione a elevate prestazioni (HPC)
- Computazione a elevate prestazioni: OpenFOAM su Oracle Cloud Infrastructure
- Computazione a elevate prestazioni: LS-DYNA su Oracle Cloud Infrastructure
- Computazione a elevate prestazioni: risposta fluente su Oracle Cloud Infrastructure
Codice Terraform per i componenti utilizzati in questa architettura:
- Computazione ad alte prestazioni - rete cluster RDMA (Oracle Cloud Marketplace)
- Oracle Cloud Infrastructure - Computing ad alte prestazioni in Github (Github)