Beispiel eines Workflows

Dieser Beispielworkflow zeigt, wie ein Fahrzeugentwicklungsteam eine leistungsstarke Compute-Plattform verwendet, um die Designkosten zu senken, die Effizienz zu steigern und den Gesamtwert zu steigern.

Infrastruktur einrichten

In der On-Premise-Umgebung haben Ingenieure hohe Warteschlangenzeiten erlebt und müssen mehrere Variationen einer Simulation ausführen, für die 72 Kerne erforderlich sind. Der Design Engineer muss die Simulationen ausführen und die Ergebnisse innerhalb weniger Stunden an das Management melden. Die Wartezeit in der Queue für eine On-Premise-HPC-Umgebung beträgt jedoch 5 Tage. Der Design Engineer wendet sich an den Infrastructure Engineer, um die Infrastruktur für die Ausführung der Simulationen schnell zu starten.

Infrastructure Engineer startet schnell ein 2-Knoten-HPC-Cluster auf einem Oracle Cloud Infrastructure-(OCI-)Bare-Metal-System. Infrastructure Engineer wählt eine BM.Optimized3.36-Ausprägung aus, die für High Performance Computing Workloads entwickelt wurde, die Hochfrequenz-Prozessorcores mit RDMA erfordern. Damit kann der Infrastructure Engineer das Cluster mithilfe der vordefinierten Oracle-Lösung für Clusternetzwerke schnell über Resource Manager bereitstellen und diesen Schritt mit Tools wie Open Source Slurm, Altair PBS Professional oder Oracle Cloud SDK/CLI automatisieren.

Der Infrastructure Engineer stellt eine Verbindung zum neu bereitgestellten Cluster her und stellt sicher, dass alle erforderlichen Simulationssoftware, Visualisierungsknoten, Hostdateien, MPI-Bibliotheken, Dateisysteme (wie NFS), Batch Scheduler (wie Slurm Workload Manager) und Ansible-Tools im Cluster eingerichtet sind. Darüber hinaus führt der Infrastructure Engineer einen schnellen Latenztest aus, um sicherzustellen, dass RDMA ordnungsgemäß eingerichtet ist (Latenz muss zwischen 1 und 3 Mikrosekunden liegen), bevor er an den Design Engineer übergeben wird.

Modelle ausführen

Der Design Engineer greift auf das Cluster zu und verwendet ein Ansible-Skript, um das Motorradstandardmodell schnell im 2-Knoten-Cluster zu installieren. In diesem Beispiel wird OpenFOAM verwendet, das mit Intel MPIs kompiliert wurde.

Um die Simulation auszuführen, wechselt der Design Engineer zum Bastionknoten und startet Jobs mit der Slurm Workload Manager-Planung. Der Techniker kann den ersten Job planen und im 72-Core-Cluster ausführen, während sich die anderen noch in der Queue befinden. Da es sich nur um ein Cluster mit 2 Knoten handelt, werden zusätzliche Knoten für 8 Knoten bereitgestellt, um alle 4 Jobs auszuführen. Nach Abschluss jedes Jobs werden die entsprechenden Knoten automatisch beendet, um Kosten zu sparen. Der Techniker kann Ergebnisse für jede Job-Kennung abrufen und nach Abschluss jedes Jobs Benachrichtigungen erhalten.

Der Design Engineer kann eine der Simulationsausgaben übernehmen und in ParaView auf einer virtuellen Maschine (GPU VM) der Grafikverarbeitungseinheit modellieren. Beispiel: Das Modell kann Luftstrom, Druck, Turbulenz oder einen anderen Parameter anzeigen.

Beschreibung von run-summary.png folgt
Beschreibung der Abbildung run-summary.png

Der Design Engineer kann ein Schnellskript ausführen, um die Modellausgaben zur späteren Verwendung in Oracle Cloud Infrastructure Object Storage zu speichern. Der Techniker kann den gesamten Simulationsprozess automatisieren und in den Objektspeicher hochladen.

Bei Bedarf können sie die Daten mit Oracle Cloud Infrastructure FastConnect lokal abrufen, ohne dass Egress-Gebühren anfallen.

Daten anzeigen

In diesem Beispiel interessiert sich der Technical Operations Manager dafür, wie lange die Simulationen in der Cloud gedauert haben und wie viel es kostet. Die HPC-Nutzungsdaten werden in einer Datenbank erfasst, die für die Kostenanalyse verwendet wird.

Das folgende Beispiel zeigt die Simulationszeit auf Oracle Cloud Infrastructure (OCI) HPC im Vergleich zu den Simulationszeiten von einem On-Premises-System und die Gesamtzeit, die beim Ausführen von HPC auf OCI im Vergleich zu On-Premises eingespart wurde, sowie die damit verbundenen Kosten. Im Beispiel wurde ein OCI-HPC-Cluster mit 8 Knoten für insgesamt 2 Stunden verwendet. Bei 0,075 US-Dollar pro Kern beläuft sich dies auf 2,70 US-Dollar pro Instanz pro Stunde oder 21,60 US-Dollar insgesamt für die 2 Stunden.

In einer realen Anwendung sind die Kosten- und Zeiteinsparungen durch die Ausführung in der Cloud in der Regel wichtiger als in diesem speziellen Beispiel. Durch das Bursting in der Cloud oder den vollständigen Wechsel in die Cloud ermöglicht die On-Demand-Kapazität schnellere Iterationen und Verbesserungen am vorhandenen Modell, was den Weg für ein schnelleres Produktdesign, eine schnellere Performance und eine schnellere Releasezeit ebnet.

Beschreibung von manager-dashboard.png folgt
Beschreibung der Abbildung manager-dashboard.png