IBM Spectrum LSF mit für OCI konfiguriertem Ressourcen-Connector bereitstellen

Lösen Sie das Problem der festen Ressourcenzuweisung, indem Sie die Anzahl der einer Workload zugewiesenen Ressourcen basierend auf dem tatsächlichen Bedarf mit der automatischen Skalierung des IBM Spectrum LSF-Ressourcen-Connectors dynamisch anpassen. Optimieren Sie die Ressourcennutzung, senken Sie Kosten, und verbessern Sie die Gesamteffizienz in High Performance Computing-(HPC-)Umgebungen.

IBM Spectrum LSF (Load Sharing Facility) ist eine Workload-Managementplattform für verteilte Computing-Umgebungen. Es ermöglicht Benutzern, Computerjobs über ein Netzwerk von Computern oder Compute-Clustern zu verwalten und zu planen, um sicherzustellen, dass Jobs effizient und ohne Unterbrechung abgeschlossen werden.

Mit dem Ressourcen-Connector für das IBM Spectrum LSF-Feature (früher als Host Factory bezeichnet) können LSF-Cluster Ressourcen von unterstützten Ressourcenprovidern ausleihen. Wenn die Workload gering ist, verwendet die LSF einen Ressourcen-Connector, um die Anzahl der zugewiesenen Ressourcen zu reduzieren, Kosten zu sparen und die Auslastung zu verbessern. Wenn die Workload hoch ist, werden vom Cloud-Provider mehr Ressourcen angefordert.

Beachten Sie, dass für die Bereitstellung dieser Architektur administrative Berechtigungen erforderlich sind.

Architektur

Diese Referenzarchitektur zeigt das IBM Spectrum LSF-Cluster an, das in einem vorhandenen Subnetz mit einem primären Host, Clusterknoten (die bei Bedarf erstellt werden, wenn der Ressourcen-Connector die OCI-API aufruft) und Bastion-Service bereitgestellt ist.

Der primäre LSF-Host erfordert die instance_principal-Autorisierung für die Interaktion mit der OCI-API und hat eine Standardkonfiguration (VM.Standard.E4). Flex- / 2-OCPUs/ 8 GB), die während der Stackerstellung angepasst werden können.

Die LSF resource_connector ist für die dynamische Queue vorkonfiguriert und kann von der OCI-API zwei Typen von Compute-Ressourcen anfordern (amd2 - VM.Standard.E3). Flex-/2-OCPUs/4 GB und amd4 - VM.Standard.E4. Flex / 2 OCPUs / 8 GB) abhängig von den Jobanforderungen. Für resource_connector verfügbare Vorlagen können in den LSF-Konfigurationsdateien (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json und <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) geändert und die Clusterkonfiguration neu geladen werden. Dabei wird die Clusterkonfiguration mit den folgenden Befehlen neu geladen:

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

Die standardmäßige maximale Anzahl von Hosts, die resource_connector von OCI anfordern kann, beträgt acht für jede verfügbare Vorlage (maxNumber kann in der Datei <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json geändert werden, wenn weitere Knoten erforderlich sind).

Der empfohlene Deployment-Ansatz verwendet den Deployment-Link mit einem Klick über Oracle Cloud Infrastructure Resource Manager.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.



oci-ibm-lfs-architecture-oracle.zip

Die Architektur umfasst die folgenden Komponenten:

  • Tenancy

    Ein Mandant ist eine sichere und isolierte Partition, die Oracle in Oracle Cloud einrichtet, wenn Sie sich für Oracle Cloud Infrastructure registrieren. Sie können Ihre Ressourcen in Oracle Cloud in Ihrem Mandanten erstellen, organisieren und verwalten. Ein Mandant ist ein Synonym für ein Unternehmen oder eine Organisation. In der Regel verfügt ein Unternehmen über einen einzigen Mandanten und spiegelt seine Organisationsstruktur innerhalb dieses Mandanten wider. Ein einzelner Mandant ist in der Regel mit einem einzelnen Abonnement verknüpft, und ein einzelnes Abonnement hat in der Regel nur einen Mandanten.

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Compartment

    Compartments sind regionsübergreifende logische Partitionen innerhalb eines Oracle Cloud Infrastructure-Mandanten. Mit Compartments können Sie Nutzungs-Quotas für Ihre Oracle Cloud-Ressourcen organisieren, den Zugriff kontrollieren und festlegen. In einem bestimmten Compartment definieren Sie Policys, die den Zugriff kontrollieren und Berechtigungen für Ressourcen festlegen.

  • Availability-Domains

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Daher sollte ein Fehler in einer Availability-Domain sich nicht auf die anderen Availability-Domains in der Region auswirken.

  • Faultdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain umfasst drei Faultdomains mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der im Subnetz und aus dem Subnetz zugelassen werden muss.

  • Network Address Translation-(NAT-)Gateway

    Ein NAT-Gateway ermöglicht privaten Ressourcen in einem VCN den Zugriff auf Hosts im Internet, ohne dass diese Ressourcen für eingehende Internetverbindungen freigegeben werden.

  • Servicegateway

    Das Servicegateway bietet Zugriff von einem VCN auf andere Services, wie Oracle Cloud Infrastructure Object Storage. Der Traffic vom VCN zum Oracle-Service wird über die Oracle-Netzwerkstruktur geleitet und durchläuft nicht das Internet.

  • Internetgateway

    Das Internetgateway ermöglicht Traffic zwischen den öffentlichen Subnetzen in einem VCN und dem öffentlichen Internet.

  • Bastionservice

    Oracle Cloud Infrastructure Bastion bietet eingeschränkten und zeitlich begrenzten sicheren Zugriff auf Ressourcen, die keine öffentlichen Endpunkte haben und strenge Ressourcenzugriffskontrollen erfordern, wie Bare-Metal- und virtuelle Maschinen, Oracle MySQL Database Service, Autonomous Transaction Processing (ATP), Oracle Cloud Infrastructure Kubernetes Engine (OKE) und alle anderen Ressourcen, die Secure Shell Protocol-(SSH-)Zugriff ermöglichen. Mit dem OCI Bastion-Service können Sie den Zugriff auf private Hosts aktivieren, ohne einen Jump-Host bereitzustellen und zu verwalten. Darüber hinaus erhalten Sie eine verbesserte Sicherheitslage mit identitätsbasierten Berechtigungen und einer zentralisierten, auditierten und zeitgebundenen SSH-Session. Mit OCI Bastion ist keine öffentliche IP für Bastionzugriff erforderlich. Dadurch entfällt der Aufwand und die potenzielle Angriffsfläche bei der Bereitstellung von Remotezugriff.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) ist die Zugriffskontrollebene für Oracle Cloud Infrastructure (OCI) und Oracle Cloud Applications. Mit der IAM-API und der Benutzeroberfläche können Sie Identitätsdomains und die Ressourcen innerhalb der Identitätsdomain verwalten. Jede OCI-IAM-Identitätsdomain stellt eine eigenständige Identity and Access Management-Lösung oder eine andere Benutzerpopulation dar.

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Manager automatisiert Deployment und Vorgänge für alle OCI-Ressourcen. Mit dem Infrastructure-as-Code-(IaC-)Modell basiert der Service auf Terraform.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt, um die Skalierbarkeit und Verfügbarkeit des LSF-Clusters sicherzustellen: Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.
  • VCN und Subnetze

    Wenn Sie ein vorhandenes Subnetz auswählen, müssen Sie einen CIDR-Block berücksichtigen, der groß genug ist, um alle vom LSF-Ressourcen-Connector angeforderten Compute-Ressourcen aufzunehmen.

    Verwenden Sie regionale Subnetze (bei Multi-Ad-Regionen).

    Alle Kommunikation innerhalb des Subnetzes zulassen (erstellen Sie der Sicherheitsliste des Subnetzes eine Regel, die alle Ingress-Verbindungen vom Subnetz-CIDR-Block zu allen Zielports zulässt).

Hinweise

Beachten Sie beim Provisioning die folgenden Aspekte.

  • IBM Spectrum LSF-Binärdateien

    Binärdateien und die zum Installieren/Ausführen von LSF erforderliche Lizenz sind nicht enthalten. Diese Bereitstellung wurde mit LSF-Version 10.1 und Patch-Version 601088 getestet.

    Vor dem Deployment können Sie die folgenden Dateien aus dem IBM-Supportportal herunterladen, in einen OCI-Objektspeicher-Bucket laden und vorab authentifizierte Anforderungen erstellen.

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    Die DNS-Auflösung muss für das VCN und das Subnetz aktiviert sein, die für den LSF-Masterknoten verwendet werden.

Stellen Sie

Der Terraform-Code zur Bereitstellung der Lösung ist unter GitHub verfügbar.

  1. Gehen Sie zu GitHub.
  2. Klonen Sie das Repository, oder laden Sie es auf Ihren lokalen Rechner herunter.
  3. Befolgen Sie die Anweisungen im Dokument README.

Mehr erfahren

Erfahren Sie mehr über IBM Spectrium LSF, IBM Spectrium LSF-Ressourcen-Connector und OCI.

Prüfen Sie diese zusätzlichen Ressourcen:

Danksagungen

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok