Computazione a elevate prestazioni: risposta fluente su Oracle Cloud Infrastructure

Fluent è uno strumento di simulazione fluido. Utilizzarla per modellare turbolenze, combustione, flussi multifase e altro ancora.

Architettura

L'architettura utilizza un nodo bastion/head per connettersi al cluster HPC.

Il nodo testa contiene l'installazione Fluent e il modello. Ha l'interfaccia MPI (Message Passing Interface) e organizza ed esegue il job. I risultati dei job vengono salvati nel nodo principale.

Il diagramma riportato di seguito illustra questa architettura di riferimento.

Segue la descrizione di architecture-hpc.png
Descrizione dell'illustrazione architettura-hpc.png

Architecture-hpc-oracle.zip

L'architettura prevede i componenti elencati di seguito.

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata contenente uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e le grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center indipendenti e standalone all'interno di un'area geografica. Le risorse fisiche presenti in ciascun dominio di disponibilità sono isolate dalle risorse presenti negli altri domini di disponibilità, il che garantisce la tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento, né la rete interna del dominio di disponibilità. Pertanto, è improbabile che un errore di un dominio di disponibilità influisca sugli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore è un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le applicazioni possono tollerare errori del server fisico, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software impostata dall'utente in un'area Oracle Cloud Infrastructure. Come le reti di data center tradizionali, le VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. È possibile segmentare una VCN in subnet, che può essere definita in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono con le altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

  • Pool di istanze

    I pool di istanze ti consentono di creare e gestire più istanze di computazione all'interno della stessa area di un gruppo. Inoltre, favoriscono l'integrazione con altri servizi, come il servizio Load Balancing e il servizio IAM.

  • Nodo bastion/nodo intestazione

    Utilizza un portale basato su Web per connettersi al nodo principale e pianificare i job HPC. La richiesta di job prevede una connessione VPN FastConnect o IPSec al nodo principale. Il nodo principale invia inoltre il set di dati del cliente allo storage di file e può eseguire alcune operazioni di pre-elaborazione sui dati.

    Il nodo principale esegue il provisioning dei cluster del nodo HPC e elimina i cluster HPC al completamento del job.

  • Nodo cluster HPC

    Il nodo principale esegue il provisioning e termina questi nodi di calcolo, che sono cluster abilitati per RDMA. Elaborano i dati memorizzati nello storage di file e restituiscono i risultati allo storage di file.

  • Cloud Guard

    Puoi utilizzare Oracle Cloud Guard per monitorare e gestire la sicurezza delle tue risorse nel cloud. Cloud Guard esamina le risorse in termini di punti deboli della sicurezza correlati alla configurazione e monitora operatori e utenti per le attività a rischio. Quando viene identificato un problema o un rischio di sicurezza, Cloud Guard consiglia azioni correttive e supporta queste azioni in base alle ricette di sicurezza che è possibile definire.

  • Server NFS

    Uno dei nodi HPC verrà promosso come server NFS.

Suggerimenti

I requisiti potrebbero essere diversi dall'architettura descritta in questa sezione. Utilizzare i seguenti suggerimenti come punto di partenza.

  • VCN

    Quando crei una VCN, determina il numero di blocchi CIDR necessari e la dimensione di ogni blocco in base al numero di risorse che intendi collegare alle subnet nella VCN. Utilizzare i blocchi CIDR che si trovano all'interno dello spazio di indirizzi IP privati standard.

    Selezionare i blocchi CIDR che non si sovrappongono a qualsiasi altra rete (in Oracle Cloud Infrastructure, il data center on premise o un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato una VCN, è possibile modificare, aggiungere e rimuovere i relativi blocchi CIDR.

    Durante la progettazione delle subnet, prendi in considerazione i requisiti di flusso del traffico e sicurezza. Associare tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può fungere da limite di sicurezza.

  • Sicurezza

    Utilizza Oracle Cloud Guard per monitorare e gestire in modo proattivo la sicurezza delle tue risorse in OCI. Cloud Guard utilizza ricette del rilevatore che è possibile definire per esaminare le risorse per i punti deboli della sicurezza e per monitorare operatori e utenti per le attività a rischio. Quando viene rilevata una configurazione errata o un'attività non sicura, Cloud Guard consiglia azioni correttive e supporta tali azioni in base alle ricette del rispondente che è possibile definire.

    Per le risorse che richiedono la massima sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una ricetta definita da Oracle di criteri di sicurezza basati sulle migliori prassi. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili dalla rete Internet pubblica e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando crei e aggiorna le risorse in una zona di sicurezza, Oracle Cloud Infrastructure convalida le operazioni rispetto ai criteri nella ricetta della zona di sicurezza e nega le operazioni che violano qualsiasi criterio.

  • Nodi HPC

    Sono disponibili i due scenari riportati di seguito.

    1. Distribuisci su forme VM utilizzando il pool di istanze, come illustrato nel diagramma dell'architettura. Questo scenario offre costi inferiori ma anche prestazioni inferiori.

      Utilizzare VM.Standard.E3.Flex o VM.Standard.E4.Flex con il servizio di storage dei file .

    2. Implementa con le forme HPC BARE Metal per ottenere prestazioni complete.

      Utilizzare le forme BM.HPC2.36 con lo storage SSD NVMe locale 6.4-TB, 36 core e 384 GB di memoria per nodo.

Considerazioni

Quando si distribuisce questa architettura di riferimento, tenere presenti i punti riportati di seguito.

  • Prestazioni

    A seconda delle dimensioni del carico di lavoro, determinare il numero di memorie centrali su cui si desidera eseguire Fluent. Questa decisione garantisce il completamento tempestivo della simulazione.

    Per ottenere le prestazioni migliori, scegliere la forma di computazione corretta con la larghezza di banda appropriata.

  • Disponibilità

    Puoi utilizzare un'opzione ad alta disponibilità in base ai tuoi requisiti di distribuzione e all'area geografica. Le opzioni includono l'uso di più domini di disponibilità in un'area e domini di errore.

  • Costo

    Un'istanza GPU Bare Metal fornisce la potenza della CPU necessaria per un costo superiore. Valuta i requisiti per scegliere la forma di computazione appropriata.

    È possibile eliminare il cluster quando non sono in esecuzione job.

  • Monitoraggio e avvisi

    Impostare monitoraggio e avvisi sull'utilizzo della CPU e della memoria per i nodi in modo da poter ridimensionare la forma in alto o in basso in base alle esigenze.

  • Memoria

    Oltre allo storage SSD NVMe fornito con la forma HPC, puoi anche collegare volumi a blocchi a 32k IOPS per volume, supportato dall'accordo sul livello di servizio Oracle relativo alle prestazioni più elevate. Se stai utilizzando le nostre soluzioni per avviare l'infrastruttura, per impostazione predefinita viene installata una condivisione nfs sullo storage SSD NVMe in /mnt. È anche possibile installare il proprio file system parallelo sopra lo storage SSD NVMe o lo storage a blocchi, a seconda dei requisiti delle prestazioni.

  • Nodo visualizzatore

    È possibile creare un nodo visualizzatore, ad esempio un nodo VM o Bare Metal della GPU, a seconda dei requisiti. Questo nodo visualizzatore può essere l'host bastion o separato. A seconda dei requisiti di sicurezza per il carico di lavoro, il nodo visualizzatore può essere posizionato nella subnet privata o pubblica.

Distribuzione

Il codice necessario per distribuire questa architettura di riferimento è disponibile in GitHub. Puoi inserire il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, scaricare il codice da GitHub nel computer, personalizzare il codice e distribuire l'architettura utilizzando l'interfaccia CLI Terraform.

  • Implementa utilizzando Oracle Cloud Infrastructure Resource Manager:
    1. Fare clic su Distribuire in Oracle Cloud

      Se non si è ancora collegati, immettere la tenancy e le credenziali utente.

    2. Rivedere e accettare i termini e le condizioni.
    3. Selezionare l'area in cui distribuire lo stack.
    4. Seguire i prompt visualizzati e le istruzioni per creare lo stack.
    5. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
    6. Attendere il completamento del processo e rivedere il piano.

      Per apportare modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Quindi eseguire di nuovo l'azione Piano.

    7. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
  • Distribuzione mediante il codice Terraform in GitHub:
    1. Vai a GitHub.
    2. Duplicare o scaricare il repository nel computer locale.
    3. Seguire le istruzioni riportate nel documento README.

Log modifiche

Questo log elenca modifiche significative: