Informazioni sulla distribuzione dei file system Lustre

Con le crescenti esigenze di formazione AI/ML, inferenza ed esigenze di elaborazione ad alte prestazioni, è necessario prendere in considerazione una soluzione di file system completamente gestita che si ridimensiona. Scopri come implementare un solido file system basato su cloud che supporti la crescita futura.

Oracle Cloud Infrastructure (OCI) File Storage con Lustre automatizza le attività di distribuzione, scalabilità e manutenzione, consentendoti di concentrarti sulle applicazioni piuttosto che sulla gestione dell'infrastruttura Lustre. Il servizio in OCI implementa Lustre as a service open source. Il file system Lustre può essere scalato per offrire velocità di più terabyte al secondo per un'elaborazione rapida dei dati e un throughput elevato.

Puoi utilizzare la console OCI, le API, gli SDK, l'interfaccia della riga di comando (CLI, Command Line Interface) e le metriche per creare, gestire e monitorare il file system Lustre. Il client Lustre installato nei sistemi comunica con il file system Lustre, in particolare con gli storage server Lustre che utilizzano le sottoreti. L'utente è responsabile della gestione di elenchi di sicurezza, tabelle di instradamento, gruppi di sicurezza e altre configurazioni correlate alla VCN.

Questa guida sulla soluzione descrive in dettaglio le best practice per lo storage di file OCI con Lustre e le istruzioni per creare, installare e monitorare il file system Lustre. L'obiettivo è iniziare a usare il file system Lustre e accedervi da un client Lustre.

Operazioni preliminari

Prima di iniziare, consulta la documentazione di Lucido per ulteriori informazioni sullo storage di file OCI con Lustre.

Architettura

Questa architettura mostra le comunicazioni Lustre all'interno di una rete cloud virtuale (VCN). Tutti i componenti Lustre vengono distribuiti nello stesso dominio di disponibilità in più domini di errore per l'alta disponibilità. È possibile eseguire il MOUNT dei file system Lustre dalle istanze di computazione OCI (sia virtual machine che istanze Bare Metal) e dagli ambienti containerizzati come Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Il diagramma riportato di seguito illustra l'architettura di alto livello dei componenti Lustre di base distribuiti e gestiti da Oracle Cloud e dai componenti gestiti dal cliente.



lustre-file-system-oci-arch.zip

L'architettura dispone dei seguenti componenti OCI:

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, che ospitano domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio alimentazione o raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.

    Lo storage di file OCI con Lustre viene distribuito in un singolo dominio di disponibilità.

  • Domini di errore

    Un dominio di errore è un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando distribuisci le risorse su più domini di errore, le tue applicazioni possono tollerare errori fisici del server, manutenzione del sistema e errori di alimentazione all'interno di un dominio di errore.

    Lo storage di file OCI con componenti Lustre viene distribuito in più domini di errore per fornire ridondanza e alta disponibilità.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

    L'accesso allo storage di file OCI con Lustre avviene tramite la VCN e viene distribuito in una subnet gestita dal cliente.

L'architettura presenta i seguenti componenti Lustre. Tutti i componenti tranne MGT vengono aggiunti in quanto è necessaria una maggiore capacità:

  • Volume storage Lustre (destinazione storage oggetto o OST)

    Si tratta dei volumi in cui vengono memorizzati i dati dei file.

  • Volume di metadati (meta data target o MDT)

    I metadati dei file, ad esempio i nomi e gli attributi dei file, vengono memorizzati in questi volumi.

  • Volume di gestione della luminosità (obiettivo di gestione o MGT)

    Per un file system ne esiste solo uno. Volume utilizzato per memorizzare le informazioni di configurazione del file system Lustre.

  • Server di storage che ospita una o più destinazioni di storage (OSS)

    Si tratta di istanze di computazione virtuali o Bare Metal.

  • Server di metadati che ospita una o più destinazioni di metadati (MDS)

    Si tratta di istanze di computazione virtuali o Bare Metal.

  • LNet (rete brillante)

    LNet è un livello di rete virtuale che consente ai nodi Lustre (inclusi i client) di comunicare tra loro. LNet nasconde le complessità dei protocolli di rete sottostanti, consentendo a Lustre di operare in modo trasparente su vari tipi di rete come Ethernet e InfiniBand.

  • VCN e subnet

    La comunicazione dei dati di base del file system Lustre si basa su VCN e subnet. Ciò include la comunicazione tra client e server, nonché da server a server.

Informazioni sui servizi e sui criteri richiesti

Questa soluzione richiede i seguenti servizi e criteri:

  • Oracle Cloud Infrastructure File Storage con Lustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Rete cloud virtuale di Oracle Cloud Infrastructure

I criteri necessari per ciascun servizio sono elencati di seguito. Per iniziare rapidamente, potresti prendere in considerazione l'implementazione dei criteri e delle regole di sicurezza riportati di seguito nella subnet. Per applicare il principio del privilegio minimo, i criteri specifici necessari variano a seconda delle esigenze di sicurezza dell'organizzazione. Consulta la documentazione di Lustre per un elenco completo dei criteri necessari per gestire i file system Lustre in OCI.

Nome servizio: gruppo di criteri IAM OCI Obbligatorio per...
Oracle Cloud Infrastructure File Storage con Lustre: lustre-admin-group
  • Creare e gestire il file system Lustre.
  • Utilizzare e accedere alle risorse VCN.
  • Consente di gestire e accedere a componenti quali VNIC e vault OCI.
  • Accedere alle chiavi del vault OCI quando è richiesta la cifratura in archivio.

Per lo storage di file con Lustre sono necessarie le seguenti autorizzazioni:

allow service lustrefs to use virtual-network-family in tenancy

Per l'ingresso della lista di sicurezza è necessaria la regola seguente:

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

Per l'uscita della lista di sicurezza è necessaria la regola seguente:

Egress to 0.0.0.0/0 to all protocols

Consulta i prodotti, le soluzioni e i servizi Oracle per ottenere ciò di cui hai bisogno.

Informazioni sullo storage di file OCI con il modello di responsabilità condivisa Lustre

OCI fornisce API, SDK, un'interfaccia a riga di comando, OCI Console e metriche del file system per gestire i file system Lustre.

Lo storage di file OCI con Lustre consente di creare, gestire e monitorare il file system. Il servizio automatizzerà il provisioning e la gestione dei componenti Lustre necessari, come i server di storage Lustre e le destinazioni di storage Lustre. OCI è responsabile del provisioning e della gestione dei componenti backend come i server di storage e i volumi di storage. Come illustrato nel diagramma dell'architettura, gli storage server sono interconnessi utilizzando la subnet di un cliente per la comunicazione con Lustre. Gli elenchi di sicurezza, le tabelle di instradamento, i gruppi di sicurezza e altre configurazioni correlate alla VCN sono gestiti dall'utente, ovvero dal cliente.

Considerazioni relative a liste di sicurezza della subnet, criteri IAM e client Lustre

Quando si implementa lo storage di file con Lustre, tenere presenti le considerazioni riportate di seguito. Questi devono essere presenti prima di creare i file system di Lustre.
  • Capacità di storage e limiti del servizio

    Assicurarsi che la tenancy disponga della quota limite del servizio per supportare la creazione di nuovi file system.

  • Indirizzi IP sufficienti

    Assicurarsi che la subnet di Lustre disponga di indirizzi IP sufficienti da assegnare alle risorse del file system. Per ulteriori informazioni, vedere la sezione Configura connettività Lustre.

  • Sicurezza della subnet e criteri IAM

    Se le seguenti opzioni non sono configurate correttamente, la creazione del file system non riuscirà dopo il timeout durante la fase di provisioning.

    • È necessario configurare le regole e/o i gruppi di sicurezza per consentire la comunicazione con la porta 988 tra i server e i client Lustre.
    • Assicurarsi che lustrefs disponga delle autorizzazioni per utilizzare virtual-network-family nella tenancy.

    Per ulteriori informazioni, vedere la sezione Informazioni sui servizi e sui criteri richiesti.

  • Pacchetti client Lustre

    Utilizzare il client Lustre versione 2.15.5 con Ubuntu che esegue il kernel 5.14.x e Oracle Linux 8 o 9 che esegue un kernel compatibile Redhat (RHCK) versione 4.18.x o 5.15.x. I moduli Lustre DKLM rendono il pacchetto client Lustre flessibile da eseguire in diverse versioni del kernel. Se hai domande sul client Lustre, contatta il supporto OCI.

  • Firewall sui client Lustre

    Per impostazione predefinita, sia Oracle Linux che Ubuntu eseguono firewall sui client. Assicurarsi che la porta 988 sia aperta per la comunicazione bidirezionale. Il client Lustre ascolta anche la porta 988 e questa porta dovrebbe essere aperta insieme alla capacità del client di parlare con la porta 988 sul server. Come test, è possibile arrestare il firewall e svuotare le regole del firewall per evitare qualsiasi interferenza delle regole del firewall sul client. Segui sempre le best practice di sicurezza. Per qualsiasi domanda, contatta il supporto OCI.