Distribuisci IBM Spectrum LSF con connettore risorsa configurato per OCI

Risolvi il problema dell'allocazione fissa delle risorse regolando dinamicamente il numero di risorse allocate a un carico di lavoro in base alla domanda effettiva con la scala automatica del connettore di risorse IBM Spectrum LSF. Ottimizza l'uso delle risorse, riduci i costi e migliora l'efficienza complessiva negli ambienti HPC (High-Performance Computing).

IBM Spectrum LSF (Load Sharing Facility) è una piattaforma di gestione dei carichi di lavoro utilizzata per ambienti di elaborazione distribuiti. Consente agli utenti di gestire e pianificare i job dei computer su una rete di computer o cluster di calcolo, garantendo che i job vengano completati in modo efficiente e senza interruzioni.

Il connettore risorsa per la funzione IBM Spectrum LSF (precedentemente denominata fabbrica host) consente ai cluster LSF di prendere in prestito risorse dai provider di risorse supportati. Quando il carico di lavoro è basso, LSF utilizza il connettore delle risorse per ridurre il numero di risorse allocate, risparmiando costi e migliorando l'utilizzo. Quando il carico di lavoro è elevato, il provider cloud richiede più risorse.

I privilegi amministrativi sono necessari per la distribuzione di questa architettura.

Architettura

Questa architettura di riferimento mostra il cluster IBM Spectrum LSF distribuito in una subnet esistente con un host primario, nodi cluster (creati su richiesta quando il connettore risorsa chiama l'API OCI) e il servizio bastion.

L'host primario LSF richiede l'autorizzazione instance_principal per interagire con l'API OCI e dispone di una configurazione predefinita (VM.Standard.E4). Flex / 2 OCPU / 8 GB) che possono essere regolati durante la creazione dello stack.

L'LSF resource_connector è preconfigurato per la coda dinamica e può richiedere all'API OCI due tipi di risorse di calcolo (amd2 - VM.Standard.E3). Flexfield/2 OCPU/4 GB e amd4: VM.Standard.E4. Flex / 2 OCPU / 8 GB) a seconda dei requisiti del lavoro. I modelli disponibili per resource_connector possono essere modificati nei file di configurazione LSF (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json e <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) e ricaricare la configurazione del cluster, ricaricando la configurazione del cluster utilizzando i comandi riportati di seguito.

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

Il numero massimo predefinito di host che resource_connector può richiedere da OCI è otto per ogni modello disponibile (è possibile modificare maxNumber nel file <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json se sono necessari più nodi).

L'approccio di distribuzione consigliato prevede l'utilizzo del collegamento di distribuzione con un clic tramite Oracle Cloud Infrastructure Resource Manager.

Il seguente diagramma illustra questa architettura di riferimento.



oci-ibm-lfs-architecture-oracle.zip

L'architettura presenta i seguenti componenti:

  • Tenancy

    Una tenancy è una partizione sicura e isolata che Oracle imposta all'interno di Oracle Cloud quando ti iscrivi a Oracle Cloud Infrastructure. Puoi creare, organizzare e amministrare le risorse in Oracle Cloud all'interno della tua tenancy. Una tenancy è sinonimo di azienda o organizzazione. Di solito, un'azienda avrà una singola tenancy e rifletterà la sua struttura organizzativa all'interno di quella tenancy. Una singola tenancy viene in genere associata a una singola sottoscrizione e una singola sottoscrizione in genere ha una sola tenancy.

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Compartimento

    I compartimenti sono partizioni logiche tra più aree all'interno di una tenancy Oracle Cloud Infrastructure. Usare i compartimenti per organizzare, controllare l'accesso e impostare le quote d'uso per le risorse Oracle Cloud. In un determinato compartimento, si definiscono i criteri che controllano l'accesso e impostano i privilegi per le risorse.

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio alimentazione o raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.

  • Domini di errore

    Un dominio di errore consiste in un gruppo di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le tue applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

  • Gateway NAT (Network Address Translation)

    Un gateway NAT consente alle risorse private in una VCN di accedere agli host su Internet, senza esporre tali risorse alle connessioni Internet in entrata.

  • Gateway del servizio

    Il gateway di servizi fornisce l'accesso da una VCN ad altri servizi, come Oracle Cloud Infrastructure Object Storage. Il traffico dalla VCN al servizio Oracle viene instradato sul fabric di rete Oracle e non attraversa Internet.

  • Gateway Internet

    Il gateway Internet consente il traffico tra le subnet pubbliche in una VCN e la rete Internet pubblica.

  • Servizio bastion

    Oracle Cloud Infrastructure Bastion offre un accesso sicuro limitato e limitato nel tempo alle risorse che non dispongono di endpoint pubblici e che richiedono severi controlli di accesso alle risorse, come bare metal e virtual machine, Oracle MySQL Database Service, Autonomous Transaction Processing (ATP), Oracle Cloud Infrastructure Kubernetes Engine (OKE) e qualsiasi altra risorsa che consente l'accesso al protocollo SSH (Secure Shell Protocol). Con il servizio OCI Bastion, puoi abilitare l'accesso agli host privati senza distribuire e gestire un jump host. Inoltre, è possibile migliorare le impostazioni di sicurezza con autorizzazioni basate sull'identità e una sessione SSH centralizzata, controllata e con limiti di tempo. OCI Bastion elimina la necessità di un IP pubblico per l'accesso bastion, eliminando la seccatura e la potenziale superficie di attacco quando si fornisce l'accesso remoto.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) è il piano di controllo dell'accesso per Oracle Cloud Infrastructure (OCI) e Oracle Cloud Applications. L'API IAM e l'interfaccia utente consentono di gestire i domini di Identity e le risorse all'interno del dominio di Identity. Ogni dominio di Identity IAM OCI rappresenta una soluzione standalone per la gestione delle identità e degli accessi o una popolazione di utenti diversa.

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Manager automatizza la distribuzione e le operazioni per tutte le risorse OCI. Utilizzando il modello infrastructure-as-code (IaC), il servizio si basa su Terraform.

Suggerimenti

Utilizzare i seguenti suggerimenti come punto di partenza per garantire la scalabilità e la disponibilità dei cluster LSF:I requisiti potrebbero differire dall'architettura descritta qui.
  • VCN e subnet

    Quando selezioni una subnet esistente, devi considerare un blocco CIDR abbastanza grande da contenere tutte le risorse di computazione richieste dal connettore delle risorse LSF.

    Utilizzare le subnet regionali (in caso di aree multi-ad).

    Consenti tutte le comunicazioni all'interno della subnet (aggiungi alla lista di sicurezza della subnet una regola che consente tutte le connessioni in entrata dal blocco CIDR della subnet a tutte le porte di destinazione).

Considerazioni

Durante il provisioning, considerare i seguenti aspetti.

  • File binari IBM Spectrum LSF

    I file binari e la licenza necessaria per installare/eseguire LSF non sono inclusi. Questa distribuzione è stata testata con LSF versione 10.1 e patch versione 601088.

    Prima della distribuzione, puoi scaricare i file riportati di seguito dal portale di supporto IBM, caricarli in un bucket dell'area di memorizzazione degli oggetti OCI e creare richieste preautenticate.

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    La risoluzione DNS deve essere abilitata per la VCN e la subnet utilizzate per il nodo principale LSF.

Distribuire

Il codice Terraform per distribuire la soluzione è disponibile in GitHub.

  1. Passare a GitHub.
  2. Duplica o scarica il repository nel computer locale.
  3. Seguire le istruzioni riportate nel documento README.

Visualizza altro

Ulteriori informazioni su IBM Spectrium LSF, sul connettore di risorse IBM Spectrium LSF e su OCI.

Esamina queste risorse aggiuntive:

conferme

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok