High Performance Computing

High Performance Computing (HPC) führt komplexe Berechnungen durch und verarbeitet Daten schneller als herkömmliches Computing. HPC verwendet Bare Metal-Server, Clusternetzwerke mit extrem geringer Latenz, leistungsstarke Speicheroptionen und parallele Dateisysteme. Diese Infrastruktur ermöglicht die parallele Verarbeitung für rechenintensive Workloads wie künstliche Intelligenz, Deep Learning, Datenanalyse, wissenschaftliche Simulationen und jede andere hochintensive Workload.

Erste Schritte mit High Performance Computing

Mit dem Standardworkflow zum Erstellen von Instanzen können Sie eine HPC-Instanz mit einem Knoten erstellen. Wenn Sie mehrere HPC-Instanzen in einer RDMA-Netzwerkgruppe verwenden möchten, können Sie diese über Clusternetzwerke mit Instanzpools oder Compute-Cluster erstellen.

RDMA-Clusternetzwerke verwenden

Remote Direct Memory Access-(RDMA-)Clusternetzwerke sind Gruppen von HPC-, GPU- oder optimierten Instanzen, die mit einem Netzwerk mit hoher Bandbreite und extrem geringer Latenz verbunden sind. Jeder Knoten im Cluster ist eine Bare-Metal-Maschine, die sich in physischer Nähe der anderen Knoten befindet. Ein Remote Direct Memory Access-(RDMA-)Netzwerk zwischen Knoten bietet Latenzen im einstelligen Mikrosekundenbereich, vergleichbar mit On-Premise-HPC-Clustern.

Clusternetzwerke sind für extrem anspruchsvolle parallele Computing-Workloads konzipiert. Beispiel:

  • Strömungssimulationen für die Automobil- oder Luftfahrtmodellierung
  • Finanzmodellierung und Risikoanalyse
  • Biomedizinische Simulationen
  • Flugbahnanalyse und -design für die Weltraumforschung
  • Künstliche Intelligenz und Big Data-Workloads

Oracle Cloud Infrastructure bietet zwei Typen von Clusternetzwerken an. In beiden Fällen handelt es sich bei den Netzwerken um Gruppen von Bare-Metal-Instanzen, die mit einem Netzwerk mit extrem geringer Latenz verbunden sind.

  • Mit Clusternetzwerken mit Instanzpools können Sie Instanzpools verwenden, um Gruppen identischer Instanzen in der RDMA-Netzwerkgruppe zu verwalten. Wenn Sie vorhersehbare Kapazität für eine bestimmte Anzahl identischer Instanzen wünschen, die als Gruppe verwaltet werden, verwenden Sie Clusternetzwerke mit Instanzpools.
  • Mit Compute-Clustern können Sie Instanzen im Cluster einzeln verwalten. Beim Anlegen eines Compute-Clusters erstellen Sie eine leere RDMA-Netzwerkgruppe. Nachdem die Gruppe erstellt wurde, können Sie der Gruppe Instanzen hinzufügen oder Instanzen aus der Gruppe löschen. Wenn Sie Instanzen im RDMA-Netzwerk unabhängig voneinander verwalten oder verschiedene Instanztypen in der Netzwerkgruppe verwenden möchten, verwenden Sie Compute-Cluster.

Oracle Cloud Agent-Plug-ins für HPC

Oracle Cloud Infrastructure bietet ein Cloud-Agent-Plug-in speziell für HPC-Bare-Metal-Instanzen, um die Konfiguration und Authentifizierung von HPC-Netzwerken zu vereinfachen und ein spezielles Monitoring für High Performance Computing bereitzustellen.

Das HPC-Plugin ist für HPC in allen kommerziellen Regionen verfügbar.

Unterstützte Ausprägungen und Images für HPC
Ausprägung Unterstützte Images Standardeinstellung
BM.GPU.A10,4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Empfohlen für OCA 1.37.0 oder höher
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Empfohlen für OCA 1.37.0 oder höher
BM.GPU.H100,8 Ubuntu 20.04+, OL7, OL8 Für OCA 1.37.0 oder höher aktiviert
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Empfohlen für OCA 1.37.0 oder höher
BM.HPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Empfohlen für OCA 1.37.0 oder höher
BM.Optimized3.36 Ubuntu 20.04+, OL7, OL8 Für OCA 1.37.0 oder höher aktiviert
Die Submodule des HPC-Plugins können einzeln aktiviert oder deaktiviert werden:
  • Automatische Konfiguration
    • Wendet empfohlene Netzwerkadaptereinstellungen auf GPU-Ausprägungen an
    • Wendet empfohlene Mellanox Connect-X-Einstellungen auf GPU-Ausprägungen an
    • Weist RDMA-Netzwerkschnittstellen basierend auf dem primären VCN IP-Adressen zu
  • RDMA-Authentifizierung/Konfiguration
    • Konfiguriert RDMA-Netzwerkschnittstellen mit empfohlener QoS und MTU
    • Konfiguriert und verwaltet die erforderliche RDMA-Netzwerkauthentifizierung
  • GPU- und RDMA-Überwachung
    • Gibt zusätzliche RDMA- und GPU-Performancemetriken aus

Um das HPC-Plug-in auf einer vorhandenen Bare-Metal-Instanz zu aktivieren, müssen Sie die vorhandene Instanz zu Oracle Cloud Agent 1.35.0 oder höher erstellen oder migrieren. Weitere Informationen finden Sie unter Oracle Cloud Agent.

GPU- und RDMA-Metriken aktivieren

Wenn Sie Oracle Cloud Agent installieren und das HPC-Monitoring-Plug-in aktivieren, werden die GPU- und RDMA-Metriken automatisch aktiviert. OCI sendet die Metriken an den Kunden-Namespace und stellt sie dem Mandanten in Rechnung.

Informationen dazu, ob diese Metriken zu zusätzlichen Gebühren führen, finden Sie unter Messpreise.

Eine detaillierte Liste der HPC-Metriken finden Sie unter Compute-Instanzmetriken.