Bare-Metal-GPU-Cluster für KI-Workloads in einer dedizierten Cloud bereitstellen

Die Bereitstellung von Workloads für künstliche Intelligenz, maschinelles Lernen und Deep Learning-Modelle für die Sprachmodellierung kann in einigen Fällen strenge Anforderungen an Data Residency, Sicherheit und Compliance haben.

Für diese Workloads bietet Oracle Cloud mehrere verteilte Bereitstellungs- und Betriebsmodelle, darunter Government Cloud, Sovereign Cloud und dedizierte Cloud. Eine dieser Lösungen ist Oracle Cloud Infrastructure Dedicated Region, eine Cloud-Region, die in einem vom Kunden kontrollierten Data Center mit denselben Service- und Infrastrukturfunktionen wie die Public Cloud-Regionen von Oracle bereitgestellt wird.

In öffentlichen und dedizierten Cloud-Regionen ermöglicht Oracle Cloud Infrastructure (OCI) direkten Zugriff auf ein Bare-Metal-Servercluster, das von leistungsstarken GPUs und Oracle RoCEv2-Clusternetzwerken unterstützt wird. Das Bare-Metal-GPU-Cluster bietet das branchenweit beste Preis-Leistungs-Verhältnis für die Bereitstellung dedizierter KI, ML oder DL.

Architektur

Diese Architektur zeigt die Beziehung zwischen den verschiedenen Komponenten in einem typischen System und dem HPC-Bare-Metal-GPU-Cluster im Kern.

Natural Language Processing ist ein Deep Learning-Modell, das vorab trainiert wurde. Jedes Modell variiert in seiner Komplexität und kann basierend auf den Spezifikationen des GPU-Prozessors und des Speichers, der zur Aufnahme seiner Parameter erforderlich ist, für die optimale Performance skaliert werden. Einige der größeren Modelle enthalten Hunderte von Milliarden von Parametern, die eine enorme Menge an Speicher und Verarbeitungskapazität erfordern, um das Modell in Echtzeit auszuführen, was für KI-Inferenzanwendungen von entscheidender Bedeutung ist.

Bei größeren Modellen ist nicht nur eine einzelne Multi-GPU-Instanz erforderlich, sondern auch ein Cluster von Hunderten von GPUs, die zusammenarbeiten. Diese Instanzen erfordern auch die Verwendung eines Clusterdateisystems, das über das Clusternetzwerk ausgeführt wird, um sowohl hohe IOPS als auch die bestmögliche Latenz für Vorgänge zwischen Knoten im Cluster bereitzustellen.

Um diese niedrige Latenz bereitzustellen, nutzt Oracle Cloud Infrastructure (OCI) das Cluster-Netzwerk mit geringer Latenz von Oracle, das auf Remote Direct Memory Access (RDMA) basiert und über konvergiertes Ethernet (RoCE) mit einer Latenz von weniger als 10 Mikrosekunden zwischen Knoten ausgeführt wird. RDMA ermöglicht Verbindungen mit geringer Latenz zwischen Knoten und Zugriff auf den GPU-Speicher, ohne die CPU einzubeziehen. Mit OCI kann der Kunde bis zu 4096 Bare Metal-Knoten mit jeweils 8 GPUs und bis zu 32768 GPUs clustern.

OCI bietet mehrere leistungsstarke Speicherlösungen mit geringer Latenz für KI/ML-Workloads, wie die lokalen NVMe SSD-, Netzwerk- und parallelen Dateisysteme. Der OCI Bare Metal-Server wird mit lokalem NVMe SSD-Speicher geliefert. Es kann verwendet werden, um ein Scratch NFS oder Scratch Parallel File System (BeeOND, Weka) für temporäre Dateien zu erstellen. Mit der Funktion für mehrere Block-Volumes können Sie mit einem einzelnen Volume Ihre gesamten Trainings-Datasets speichern und an mehrere GPU-Instanzen anhängen. Sie können auch Bare Metal oder VM und den Blockspeicher der ausgeglichenen Performanceebene verwenden, um Dateiserver mit dem höchsten Durchsatz und den niedrigsten Kosten mit NFS-basierten (NFS-HA, FSS) oder parallelen Dateisystemen (Weka.io, Spectrum Scale, BeeGFS, BeeOND) zu erstellen. Die Schulungsergebnisse werden in Oracle Cloud Infrastructure Object Storage zur langfristigen Speicherung gespeichert.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von architektur-bm-gpu-dedicated-region.png
Beschreibung der Illustrationsarchitektur-bm-gpu-dedicated-region.png

architektur-bm-gpu-dedicated-region-oracle.zip

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Cloud Guard

    Mit Oracle Cloud Guard können Sie die Sicherheit Ihrer Ressourcen in Oracle Cloud Infrastructure überwachen und verwalten. Cloud Guard verwendet Detektorrezepte, die Sie definieren können, um Ihre Ressourcen auf Sicherheitslücken zu untersuchen und Operatoren und Benutzer auf bestimmte riskante Aktivitäten zu überwachen. Wenn eine Fehlkonfiguration oder unsichere Aktivität erkannt wird, empfiehlt Cloud Guard Korrekturmaßnahmen und unterstützt Sie bei der Ausführung dieser Aktionen basierend auf Responder-Rezepten, die Sie definieren können.

  • Verfügbarkeitsdomänen

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Ein Fehler in einer Availability-Domain darf sich also nicht auf die anderen Availability-Domains in der Region auswirken.

  • Fehlerdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain umfasst drei Fehlerdomänen mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Compartment

    Compartments sind regionsübergreifende logische Partitionen in einem Oracle Cloud Infrastructure-Mandanten. Verwenden Sie Compartments, um Ihre Ressourcen in Oracle Cloud zu organisieren, den Zugriff auf die Ressourcen zu kontrollieren und Nutzungs-Quotas festzulegen. Um den Zugriff auf die Ressourcen in einem bestimmten Compartment zu kontrollieren, definieren Sie Policys, mit denen angegeben wird, wer auf die Ressourcen zugreifen kann und welche Aktionen sie ausführen können.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, benutzerdefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie traditionelle Data Center-Netzwerke erhalten Sie mit VCNs Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Site-to-Site-VPN

    Site-to-Site-VPN bietet IPSec-VPN-Konnektivität zwischen Ihrem On-Premise-Netzwerk und VCNs in Oracle Cloud Infrastructure. Die IPSec-Protokollfamilie verschlüsselt den IP-Traffic, bevor die Pakete von der Quelle an das Ziel übertragen werden, und entschlüsselt den Traffic, wenn er ankommt.

  • FastConnect

    Oracle Cloud Infrastructure FastConnect bietet eine einfache Möglichkeit, eine dedizierte, private Verbindung zwischen Ihrem Data Center und Oracle Cloud Infrastructure zu erstellen. FastConnect bietet Optionen mit höherer Bandbreite und ein zuverlässigeres Netzwerk als bei internetbasierten Verbindungen.

  • Dynamisches Routinggateway (DRG)

    Das DRG ist ein virtueller Router, der einen Pfad für privaten Netzwerktraffic zwischen VCNs in derselben Region zwischen einem VCN und einem Netzwerk außerhalb der Region bereitstellt, wie ein VCN in einer anderen Oracle Cloud Infrastructure-Region, einem On-Premise-Netzwerk oder einem Netzwerk in einem anderen Cloud-Provider.

  • NAT-Gateway (Network Address Translation)

    Mit einem NAT-Gateway können private Ressourcen in einem VCN auf Hosts im Internet zugreifen, ohne dass diese Ressourcen für eingehende Internetverbindungen freigegeben werden.

  • Internetgateway

    Das Internetgateway ermöglicht Traffic zwischen den öffentlichen Subnetzen in einem VCN und dem öffentlichen Internet.

  • Servicegateway

    Das Servicegateway ermöglicht den Zugriff von einem VCN auf andere Services, wie Oracle Cloud Infrastructure Object Storage. Der Traffic vom VCN zum Oracle-Service durchläuft die Oracle-Netzwerkstruktur und nicht das Internet.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der in und aus dem Subnetz zulässig sein muss.

  • Routentabelle

    Virtuelle Routentabellen enthalten Regeln zum Weiterleiten von Traffic von Subnetzen zu Zielen außerhalb eines VCN, in der Regel über Gateways.

  • Bastionhost

    Der Bastionhost ist eine Compute-Instanz, die als sicherer, kontrollierter Einstiegspunkt in die Topologie von außerhalb der Cloud dient. Der Bastionhost wird in der Regel in einer entmilitarisierten Zone (DMZ) bereitgestellt. Sie können sensible Ressourcen schützen, indem Sie sie in privaten Netzwerken platzieren, auf die nicht direkt von außerhalb der Cloud zugegriffen werden kann. Die Topologie verfügt über einen einzelnen, bekannten Einstiegspunkt, den Sie regelmäßig überwachen und prüfen können. So können Sie vermeiden, die empfindlicheren Komponenten der Topologie freizulegen, ohne den Zugriff darauf zu beeinträchtigen.

  • Bastionknoten (Headknoten)

    Der Bastionknoten (Kopfknoten) verwendet ein webbasiertes Portal, um eine Verbindung zum Hauptknoten herzustellen und Jobs zu planen. Die Jobanforderung erfolgt über Oracle Cloud Infrastructure FastConnect oder IPSec VPN zum Hauptknoten. Der Hauptknoten sendet auch das Kunden-Dataset an den Dateispeicher und kann einige Vorverarbeitungsvorgänge für die Daten ausführen. Der Hauptknoten kann Knotencluster bereitstellen und Cluster nach Abschluss des Jobs löschen.

  • Instanzpool

    Ein Instanzpool ist eine Gruppe von Instanzen innerhalb einer Region, die mit derselben Instanzkonfiguration erstellt und als Gruppe verwaltet werden.

    Mit Instanzpools können Sie mehrere Compute-Instanzen innerhalb derselben Region als Gruppe erstellen und verwalten. Sie ermöglichen auch die Integration mit anderen Services, wie dem Oracle Cloud Infrastructure Load Balancing-Service und dem Oracle Cloud Infrastructure Identity and Access Management-Service.

  • Object Storage

    Der Objektspeicher bietet schnellen Zugriff auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps, einschließlich Datenbankbackups, Analysedaten und umfangreichen Inhalten, wie Bildern und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "Hot Storage", auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten möchten und auf den Sie nur selten zugreifen.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt, und passen Sie sie an Ihre spezifischen Anforderungen an.
  • VCN

    Wenn Sie ein VCN erstellen, bestimmen Sie die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke innerhalb des standardmäßigen privaten IP-Adressraums.

    Wählen Sie CIDR-Blöcke aus, die sich nicht mit anderen Netzwerken (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider) überschneiden, für die Sie private Verbindungen einrichten möchten.

    Nachdem Sie ein VCN erstellt haben, können Sie dessen CIDR-Blöcke ändern, hinzufügen und entfernen.

    Berücksichtigen Sie beim Entwerfen der Subnetze den Trafficfluss und die Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Tier oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.

    Regionale Subnetze verwenden

  • Sicherheit

    Mit Oracle Cloud Guard können Sie die Sicherheit Ihrer Ressourcen in Oracle Cloud Infrastructure proaktiv überwachen und verwalten. Cloud Guard verwendet Detektorrezepte, die Sie definieren können, um Ihre Ressourcen auf Sicherheitslücken zu untersuchen und Operatoren und Benutzer auf bestimmte riskante Aktivitäten zu überwachen. Wenn eine Fehlkonfiguration oder unsichere Aktivität erkannt wird, empfiehlt Cloud Guard Korrekturmaßnahmen und unterstützt diese Aktionen basierend auf Responder-Rezepten, die Sie definieren können.

    Für Ressourcen, für die maximale Sicherheit erforderlich ist, empfiehlt Oracle die Verwendung von Sicherheitszonen. Eine Sicherheitszone ist ein Compartment, das mit einem von Oracle definierten Rezept von Sicherheits-Policys verknüpft ist, die auf Best Practices basieren. Beispiel: Die Ressourcen in einer Sicherheitszone dürfen nicht über das öffentliche Internet zugänglich sein und müssen mit vom Kunden verwalteten Schlüsseln verschlüsselt werden. Wenn Sie Ressourcen in einer Sicherheitszone erstellen und aktualisieren, validiert Oracle Cloud Infrastructure die Vorgänge mit den Policys im Rezept der Sicherheitszone und lehnt Vorgänge ab, die eine der Policys verletzen.

  • Cloud Guard

    Klonen und passen Sie die von Oracle bereitgestellten Standardrezepte an, um benutzerdefinierte Detektor- und Responder-Rezepte zu erstellen. Mit diesen Rezepten können Sie angeben, welcher Typ von Sicherheitsverletzungen eine Warnung generiert und welche Aktionen für sie ausgeführt werden dürfen. Beispiel: Sie möchten Objektspeicher-Buckets ermitteln, deren Sichtbarkeit auf "Öffentlich" gesetzt ist.

    Wenden Sie Cloud Guard auf Mandantenebene an, um den größten Geltungsbereich abzudecken und den Verwaltungsaufwand für die Verwaltung mehrerer Konfigurationen zu reduzieren.

    Sie können auch das Feature "Verwaltete Liste" verwenden, um bestimmte Konfigurationen auf Detektoren anzuwenden.

  • Sicherheitszonen

    Für Ressourcen, für die maximale Sicherheit erforderlich ist, empfiehlt Oracle die Verwendung von Sicherheitszonen. Eine Sicherheitszone ist ein Compartment, das mit einem von Oracle definierten Rezept von Sicherheits-Policys verknüpft ist, die auf Best Practices basieren. Beispiel: Die Ressourcen in einer Sicherheitszone dürfen nicht über das öffentliche Internet zugänglich sein und müssen mit vom Kunden verwalteten Schlüsseln verschlüsselt werden. Wenn Sie Ressourcen in einer Sicherheitszone erstellen und aktualisieren, validiert Oracle Cloud Infrastructure die Vorgänge mit den Policys im Rezept der Sicherheitszone und lehnt Vorgänge ab, die eine der Policys verletzen.

  • Netzwerksicherheitsgruppen (NSGs)

    Mit NSGs können Sie ein Set von Ingress- und Egress-Regeln definieren, die für bestimmte VNICs gelten. Wir empfehlen die Verwendung von NSGs anstelle von Sicherheitslisten, da NSGs es Ihnen ermöglichen, die Subnetzarchitektur des VCN von den Sicherheitsanforderungen Ihrer Anwendung zu trennen.

  • GPU-Knoten

    Stellen Sie die GPU-Bare-Metal-Ausprägungen bereit, um eine vollständige Performance zu erzielen

    Cluster bis zu 32.768 GPUs.

Hinweise

Beachten Sie beim Deployment dieser Referenzarchitektur die folgenden Punkte.

  • Verfügbarkeit

    Verwenden Sie eine High Availability-Option, die auf Ihren Deployment-Anforderungen und Ihrer Region basiert. Die Optionen umfassen die Verwendung mehrerer Availability-Domains in einer Region und Faultdomains.

    • Überwachung und Alerts

      Richten Sie Monitoring und Alerts zur CPU- und Arbeitsspeicherauslastung für Ihre Knoten ein, damit Sie die Ausprägung nach Bedarf vertikal oder horizontal skalieren können.

    • Kostenfaktor

      Eine Bare-Metal-GPU-Instanz bietet die erforderliche CPU-Leistung für höhere Kosten. Bewerten Sie Ihre Anforderungen, um die entsprechende Compute-Ausprägung auszuwählen.

      Sie können das Cluster löschen, wenn keine Jobs ausgeführt werden.

      Beachten Sie, dass für Bare Metal-Instanzen weiterhin Betriebskosten anfallen, während sie nicht eingeschaltet sind. Sie müssen beendet werden, damit keine Gebühren anfallen.

  • Cluster-Dateisysteme
    Es gibt mehrere Szenarios:
    • Lokaler NVMe-SSD-Speicher, der mit GPU-, HPC- und Hochleistungsspeicherausprägungen geliefert wird.
    • Block-Volumes mit mehreren Anschlüssen liefern bis zu 2.680 MB/s I/O-Durchsatz oder 700 k IOPS.
    • Sie können auch Ihr eigenes paralleles Dateisystem auf dem NVMe-SSD-Speicher oder Blockspeicher installieren, je nach Ihren Performanceanforderungen. OCI bietet Scratch- und permanente NFS-basierte (NFS-HA, FSS) oder parallele Dateisystemlösungen (weka.io, Spectrum Scale, BeeGFS, BeeOND, Lustre, Gluster, Quobyte), siehe "Mehr erfahren". Wenden Sie sich an den Support Specialist, um die optimalen Lösungen für Ihre Bedürfnisse zu entwerfen.

Bestätigungen

  • Autor: Michael Rutledge