Bereitstellen von Lustre-Dateisystemen

Angesichts der wachsenden Anforderungen an KI/ML-Training, Inferenz und High-Performance-Computing müssen Sie eine vollständig verwaltete Dateisystemlösung in Betracht ziehen, die skaliert werden kann. Erfahren Sie, wie Sie ein robustes cloudbasiertes Dateisystem bereitstellen, das zukünftiges Wachstum unterstützt.

Oracle Cloud Infrastructure (OCI) File Storage with Lustre automatisiert Deployment-, Skalierungs- und Wartungsaufgaben, sodass Sie sich auf Anwendungen anstatt auf das Lustre-Infrastrukturmanagement konzentrieren können. Der Service in OCI implementiert den Open Source Lustre as a Service. Das Lustre-Dateisystem kann skaliert werden, um Geschwindigkeiten von mehreren Terabyte pro Sekunde für eine schnelle Datenverarbeitung und einen hohen Durchsatz zu bieten.

Sie können die OCI-Konsole, APIs, SDKs, die Befehlszeilenschnittstelle (CLI) und Metriken verwenden, um das Lustre-Dateisystem zu erstellen, zu verwalten und zu überwachen. Der in Ihren Systemen installierte Lustre-Client kommuniziert mit dem Lustre-Dateisystem, insbesondere mit den Lustre-Speicherservern, die Ihre Subnetze verwenden. Sie sind für die Verwaltung von Sicherheitslisten, Routingtabellen, Sicherheitsgruppen und anderen VCN-bezogenen Konfigurationen verantwortlich.

In diesem Lösungshandbuch werden die Best Practices für OCI File Storage mit Lustre mit Anweisungen zum Erstellen, Mounten und Überwachen des Lustre-Dateisystems beschrieben. Das Ziel ist es, mit dem Lustre-Dateisystem zu beginnen und von einem Lustre-Client darauf zuzugreifen.

Bevor Sie beginnen

Bevor Sie beginnen, lesen Sie die Lustre-Dokumentation, um mehr über OCI File Storage mit Lustre zu erfahren.

Architektur

Diese Architektur zeigt die Lustre-Kommunikation in einem virtuellen Cloud-Netzwerk (VCN). Alle Lustre-Komponenten werden für High Availability in derselben Availability-Domain über mehrere Faultdomains bereitgestellt. Lustre-Dateisysteme können von OCI-Compute-Instanzen (virtuelle Maschinen und Bare-Metal-Instanzen) und containerisierten Umgebungen wie Oracle Cloud Infrastructure Kubernetes Engine (OKE) gemountet werden.

Das folgende Diagramm veranschaulicht die allgemeine Architektur der zugrunde liegenden Lustre-Komponenten, die von Oracle Cloud bereitgestellt und verwaltet werden, sowie der vom Kunden verwalteten Komponenten.



lustre-file-system-oci-arch.zip

Die Architektur enthält die folgenden OCI-Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält und Availability-Domains hostet. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Availability-Domains

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Ein Fehler in einer Availability-Domain sollte sich also nicht auf die anderen Availability-Domains in der Region auswirken.

    OCI File Storage mit Lustre wird in einer einzigen Availability-Domain bereitgestellt.

  • Faultdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain verfügt über drei Faultdomains mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

    OCI File Storage mit Lustre-Komponenten werden in mehreren Faultdomains bereitgestellt, um Redundanz und High Availability bereitzustellen.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

    Auf OCI File Storage mit Lustre wird über das VCN zugegriffen und in einem vom Kunden verwalteten Subnetz bereitgestellt.

Die Architektur hat folgende Lustre-Komponenten. Alle Komponenten außer MGT werden hinzugefügt, wenn mehr Kapazität benötigt wird:

  • Lustre-Speicherdatenträger (Objektspeicherziel oder OST)

    Dies sind die Volumes, in denen Dateidaten gespeichert werden.

  • Metadatenvolumen (Metadatenziel oder MDT)

    Dateimetadaten wie Dateinamen und Attribute werden auf diesen Volumes gespeichert.

  • Lustre-Management-Volume (Managementziel oder MGT)

    Für ein Dateisystem ist nur eines vorhanden. Dies ist ein Volume zum Speichern von Konfigurationsinformationen des Lustre-Dateisystems.

  • Speicherserver, der ein oder mehrere Speicherziele (OSS) hostet

    Hierbei handelt es sich um virtuelle oder Bare-Metal-Compute-Instanzen.

  • Metadatenserver, der ein oder mehrere Metadatenziele (MDS) hostet

    Hierbei handelt es sich um virtuelle oder Bare-Metal-Compute-Instanzen.

  • LNet (Lustre-Netzwerk)

    LNet ist eine virtuelle Netzwerkebene, mit der Lustre-Knoten (einschließlich Clients) miteinander kommunizieren können. LNet verbirgt die Komplexität der zugrunde liegenden Netzwerkprotokolle, sodass Lustre transparent über verschiedene Netzwerktypen wie Ethernet und InfiniBand hinweg arbeiten kann.

  • VCN und Subnetze

    Die Kerndatenkommunikation des Lustre-Dateisystems basiert auf VCNs und Subnetzen. Dazu gehört die Kommunikation zwischen Client und Servern sowie Server zu Server.

Erforderliche Services und Policys

Für diese Lösung sind die folgenden Services und Policys erforderlich:

  • Oracle Cloud Infrastructure File Storage mit Lustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Virtuelles Cloud-Netzwerk in Oracle Cloud Infrastructure

Die für jeden Service erforderlichen Policys werden unten aufgeführt. Um schnell loszulegen, können Sie die folgenden Policys und Sicherheitsregeln im Subnetz implementieren. Um das Least-Privilege-Prinzip einzuhalten, variieren die erforderlichen spezifischen Richtlinien je nach den Sicherheitsanforderungen Ihres Unternehmens. Eine vollständige Liste der Policys, die zur Verwaltung von Lustre-Dateisystemen in OCI erforderlich sind, finden Sie in der Lustre-Dokumentation.

Servicename: OCI-IAM-Policy-Gruppe Erforderlich für...
Oracle Cloud Infrastructure File Storage mit Lustre: lustre-admin-group
  • Erstellen und verwalten Sie das Lustre-Dateisystem.
  • VCN-Ressourcen verwenden und darauf zugreifen
  • Verwalten und greifen Sie auf Komponenten wie VNICs und OCI Vault zu.
  • Greifen Sie auf OCI Vault-Schlüssel zu, wenn eine Verschlüsselung im Ruhezustand erforderlich ist.

Die folgenden Berechtigungen sind für File Storage mit Lustre erforderlich:

allow service lustrefs to use virtual-network-family in tenancy

Die folgende Regel ist für den Ingress der Sicherheitsliste erforderlich:

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

Die folgende Regel ist für den Sicherheitslisten-Egress erforderlich:

Egress to 0.0.0.0/0 to all protocols

Weitere Informationen finden Sie unter Oracle-Produkte, -Lösungen und -Services.

OCI File Storage mit dem Modell mit geteilter Verantwortung von Lustre

OCI bietet APIs, SDKs, eine Befehlszeilenschnittstelle, die OCI-Konsole und Dateisystemmetriken zur Verwaltung von Lustre-Dateisystemen.

Mit OCI File Storage with Lustre können Sie das Dateisystem erstellen, verwalten und überwachen. Der Service automatisiert die Bereitstellung und Verwaltung der erforderlichen Lustre-Komponenten wie Lustre-Speicherserver und Lustre-Speicherziele. OCI ist für die Bereitstellung und Verwaltung der Backend-Komponenten wie Speicherserver und Speicher-Volumes verantwortlich. Wie im Architekturdiagramm dargestellt, sind die Speicherserver über das Subnetz eines Kunden für die Lustre-Kommunikation miteinander verbunden. Die Sicherheitslisten, Routingtabellen, Sicherheitsgruppen und andere VCN-bezogene Konfigurationen werden von Ihnen, dem Kunden, verwaltet.

Überlegungen zu Subnetzsicherheitslisten, IAM-Policys und Lustre-Clients

Beachten Sie bei der Implementierung von File Storage mit Lustre die folgenden Aspekte. Diese müssen vorhanden sein, bevor Sie Lustre-Dateisysteme erstellen.
  • Speicherkapazität und Servicelimits

    Stellen Sie sicher, dass Ihr Mandant über eine Servicelimit-Quota verfügt, um das Erstellen neuer Dateisysteme zu unterstützen.

  • Ausreichende IP-Adressen

    Stellen Sie sicher, dass das Lustre-Subnetz über ausreichende IP-Adressen verfügt, die Dateisystemressourcen zugewiesen werden können. Weitere Informationen finden Sie im Abschnitt zum Konfigurieren der Lustre-Konnektivität.

  • Subnetzsicherheit und IAM-Policys

    Wenn die folgenden Elemente nicht korrekt konfiguriert sind, verläuft die Dateisystemerstellung nach einem Timeout während der Provisioning-Phase nicht erfolgreich.

    • Die Sicherheitsregeln und/oder Sicherheitsgruppen müssen so konfiguriert sein, dass die Kommunikation zwischen Lustre-Servern und -Clients über Port 988 möglich ist.
    • Stellen Sie sicher, dass lustrefs über Berechtigungen zur Verwendung von virtual-network-family im Mandanten verfügt.

    Weitere Informationen finden Sie im Abschnitt über erforderliche Services und Policys.

  • Lustre Client Pakete

    Verwenden Sie Lustre Client Version 2.15.5 mit Ubuntu mit 5.14.x Kernel und Oracle Linux 8 oder 9 mit einem Redhat Compatible Kernel (RHCK) Version 4.18.x oder 5.15.x. Die Lustre DKLM Module machen das Lustre Client Paket flexibel in unterschiedlichen Kernel Versionen auszuführen. Wenn Sie Fragen zum Lustre-Client haben, wenden Sie sich an den OCI-Support.

  • Firewalls auf Lustre-Clients

    Standardmäßig führen sowohl Oracle Linux als auch Ubuntu Firewalls auf den Clients aus. Sicherstellen, dass Port 988 für die bidirektionale Kommunikation geöffnet ist. Der Lustre-Client hört auch auf Port 988 und dieser Port sollte zusammen mit der Fähigkeit des Clients, mit Port 988 auf dem Server zu sprechen, geöffnet sein. Als Test können Sie die Firewall stoppen und die Firewallregeln leeren, um Störungen der Firewallregeln auf dem Client zu vermeiden. Befolgen Sie immer die Best Practices für Ihre Sicherheit. Wenden Sie sich bei Fragen an den OCI-Support.