Punch Torino: High-Performance-Computing-(HPC-)Cluster-Deployment auf Oracle Cloud

Um die Laufzeit der rechnerischen Fluiddynamiksimulationen zu beschleunigen, verlagerte der italienische tier-1-Motorhersteller Punch Torino die CFD-Plattform in Oracle Cloud Infrastructure (OCI).

Mit Oracle Cloud Infrastructure High-Performance Computing (HPC) können die Ingenieure von Punch Torino jetzt CPU-, Arbeitsspeicher- und I/O-intensive Simulations- und Test-Workloads bis zu 24 % schneller ausführen - mit 33 % weniger Compute-Cores.

In Zusammenarbeit mit dem hochleistungsfähigen Computing-Beratungsunternehmen Doit Systems wurde die Produktionsumgebung von Punch Torino in nur zehn Wochen nach Abschluss des Proof-of-Concept abgeschlossen.

In seinem Oracle Cloud Infrastructure-Mandanten führt Punch Torino die Anwendungen Abaqus, Converge, StarCCM+, Optistruct aus.

Zu den eindeutigen Features für das Deployment von Punch Torino auf Oracle Cloud Infrastructure gehören:

  • HPC-Bare-Metal-Server in Verbindung mit dem Clusternetzwerk von Oracle bieten Zugriff auf RDMA mit extrem geringer Latenz (< 2 μs Latenz in Clustern von Zehntausenden Kernen) über konvergiertes Ethernet (RoCE) v2
  • Einfache Verwendung in HPC-Automatisierungstools zur vertikalen und horizontalen Skalierung von Bare Metal-Servern in Minutenschnelle
  • Die flache, zweistufige Netzwerktopologie von Oracle bietet einheitliche Bandbreite und Latenz über alle Knoten hinweg, sodass HPC-Cluster linear vertikal skaliert werden können
  • Speicher mit hohem I/O-Durchsatz und lokal an der Bare-Metal-Instanz angeschlossener 6.4TB NVMe-SSD

Für zukünftige Deployments erwägt Punch Torino auch:

  • Neue Arten von Compute-Instanzen, wie Optimized X9
  • FastConnect für mehr Datenübertragung und geringere Latenz in Remotesessions auf den GPU-Knoten

Kundenbericht

Erfahren Sie mehr über den Wechsel von Punch Torino zu Oracle Cloud:

Architektur

Die Benutzer von Punch Torino greifen über ein virtuelles privates Netzwerk (VPN) von der On-Premise-Zugriffs- und Control Center-Webanwendung auf die Anwendungen zu, bei der es sich um eine Altair Access-Webanwendung handelt. Das On-Premise-Active Directory-System führt die Authentifizierung mit Oracle Cloud Infrastructure Identity and Access Management durch, sodass Benutzer keinen direkten Zugriff auf das High-Performance-Computing-(HPC-)Cluster haben.

Der Kontrollknoten öffnet die HPC-Clusterknoten nach Bedarf. Nachdem die Knoten bereit sind, trennt der Kontrollknoten den Job in mehrere Teile und leitet sie zur gleichzeitigen Verarbeitung weiter. Der Control Scheduler skaliert die Compute Nodes automatisch über REST-APIs. Das HPC-Cluster stellt Bare-Metal-Instanzen nach Bedarf bereit. Die Simulationen sind in der Regel in fünf bis sechs Stunden optimiert.

Die Dateien Punch Torino-Prozesse können bis zu 50 GB groß sein. Zur Optimierung der Speicherkosten werden drei Speichertypen verwendet:
  • Simulationen erfordern einen hohen I/O-Durchsatz mit dem Hot Storage, der vom lokalen NVMe-SSD-Speicher der 6.4TB bereitgestellt wird, der an die Bare-Metal-Instanz angeschlossen ist.
  • Die Ergebnisse werden zur Analyse im warmen (Datei-)Speicher gespeichert.
  • Die Remote-Grafikanalysesession kopiert die Dateien in den Hot- (Block-)Speicher, der an die VM-Instanz angehängt ist, für schnelles Rendering.
Nachdem Benutzer die Remotegrafiksessions gestartet haben, können sie die Ergebnisse auf den NVIDIA-VM-Instanzen von Oracle Cloud Infrastructure analysieren. Nach der Analyse der Datasets werden die Compute-Instanzen und der zugehörige Hot Storage heruntergefahren und gelöscht. Die analysierten Daten werden in einem kalten Objektspeicher gespeichert, auf den Sie bis zu acht Jahre lang zugreifen können.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.



Stempel-Torino-oci-arch-oracle.zip

Das folgende Diagramm zeigt, wie Daten durch die Architektur fließen:



Stempel-Torino-oci-flow-oracle.zip

  1. Benutzer initiieren den Zugriff auf die Anwendungen vom On-Premise-Zugriff und Control Center.
  2. On-Premise Active Directory authentifiziert den Benutzer.
  3. On-Premise-Lizenzserver stellt verfügbare Lizenzen zur Verfügung.
  4. On-Premise-Zugriff und Control Center stellen die HPC-Clusterknoten nach Bedarf bereit.
  5. Benutzer laden Simulationsdatei (bis zu 50 GB) in den Dateispeicher ("warmer") hoch.
  6. Die Simulationsdatei wird in den lokalen SSD-Speicher ("Hot") kopiert und die Ergebnisse werden in den Dateispeicher zurückgespeichert.
  7. On-Premise-Zugriff und Control Center stellen die visuellen Knoten nach Bedarf bereit.
  8. Die Simulationsdatei wird zur Verarbeitung durch den visuellen Knoten aus dem Dateispeicher in den Blockspeicher ("Hot") kopiert.
  9. Die Ergebnisse werden für die langfristige Speicherung im Objektspeicher (cold) gespeichert.

Die Architektur hat folgende Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center, die sogenannten Availability-Domains, enthält. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (auf Ländern oder sogar Kontinenten).

  • Identitäts- und Zugriffsverwaltung (IAM)

    Mit Oracle Cloud Infrastructure Identity and Access Management (IAM) können Sie kontrollieren, wer auf Ihre Ressourcen in Oracle Cloud Infrastructure zugreifen kann und welche Vorgänge sie für diese Ressourcen ausführen können.

  • Audit

    Der Oracle Cloud Infrastructure Audit-Service zeichnet Aufrufe an alle unterstützten öffentlichen API-Endpunkte der öffentlichen Oracle Cloud Infrastructure-Anwendungsprogrammierung automatisch als Logereignisse auf. Derzeit unterstützen alle Services das Logging von Oracle Cloud Infrastructure Audit.

  • Availability-Domain

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was Fehlertoleranz bietet. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung, Kühlung oder das interne Availability-Domainnetzwerk. Daher ist es wahrscheinlich, dass sich ein Fehler in einer Availability-Domain auf die anderen Availability-Domains in der Region auswirkt.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten. Wie bei traditionellen Data Center-Netzwerken erhalten Sie mit VCNs die vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die einer Region oder einer Availability-Domain zugeordnet werden können. Jedes Subnetz besteht aus einem fortlaufenden Adressbereich, der sich mit den anderen Subnetzen im VCN nicht überschneidet. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Traffictyp angeben, der in das und aus dem Subnetz zugelassen werden muss.

  • Routentabelle

    Virtuelle Routentabellen enthalten Regeln, mit denen Traffic von Subnetzen an Ziele außerhalb eines VCN weitergeleitet wird, im Allgemeinen über Gateways.

  • Dynamisches Routinggateway (DRG)

    Das DRG ist ein virtueller Router, der einen Pfad für privaten Netzwerktraffic zwischen einem VCN und einem Netzwerk außerhalb der Region bereitstellt, wie ein VCN in einer anderen Oracle Cloud Infrastructure-Region, ein On-Premise-Netzwerk oder ein Netzwerk in einem anderen Cloud-Provider.

  • Leistungsstarkes Computing

    Entwickelt für High Performance Computing Workloads, die Hochfrequenz-Prozessorcores und Clusternetworking für massiv parallele HPC-Workloads erfordern.

    Oracle Cloud Infrastructure-Bare-Metal-Server in Kombination mit dem Clusternetzwerk von Oracle bieten Zugriff auf RDMA mit extrem geringer Latenz (< 2 μs Latenz in Clustern mit mehreren Zehntausenden Cores) über konvergiertes Ethernet (RoCE) v2.

  • Virtueller Rechner

    Mit dem Oracle Cloud Infrastructure Compute-Service können Sie Compute-Hosts in der Cloud bereitstellen und verwalten. Sie können Compute-Instanzen mit Ausprägungen starten, die Ihren Ressourcenanforderungen für CPU, Arbeitsspeicher, Netzwerkbandbreite und Speicher entsprechen. Nachdem Sie eine Compute-Instanz erstellt haben, können Sie sicher darauf zugreifen, sie neu starten, Volumes zuordnen oder entfernen und beenden, wenn Sie sie nicht mehr benötigen.

    Die Bare-Metal-Server von Oracle bieten Kunden Isolation, Transparenz und Kontrolle mit dedizierten Compute-Instanzen. Die Server unterstützen Anwendungen, die eine hohe Coreanzahl, eine große Speichermenge und eine hohe Bandbreite erfordern. Sie können auf bis zu 160 Cores (der größten in der Branche), 2 TB RAM und bis zu 1 PB Blockspeicher skalieren. Kunden können Cloud-Umgebungen auf den Bare-Metal-Servern von Oracle mit erheblichen Performanceverbesserungen gegenüber anderen Public Clouds und On-Premise-Data Centern erstellen.

  • Object Storage

    Der Objektspeicher bietet schnellen Zugriff auf große Mengen an strukturierten und unstrukturierten Daten mit beliebigen Inhaltstypen, darunter Datenbankbackups, Analysedaten und umfangreiche Inhalte, wie Bilder und Videos. Sie können Daten sicher im Internet oder in der Cloud-Plattform speichern und daraus abrufen. Sie können den Speicher nahtlos skalieren, ohne dass die Performance oder die Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "Hot"-Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archive Storage für "kalten" Speicher, den Sie über lange Zeiträume aufbewahren, selten oder selten.

  • Dateispeicher

    Der Oracle Cloud Infrastructure File Storage-Service stellt ein dauerhaft, skalierbares und sicheres Netzwerkdateisystem der Unternehmensklasse bereit. Sie können über jede Bare-Metal-, VM- oder Containerinstanz in einem VCN eine Verbindung mit einem File Storage Service-Dateisystem herstellen. Sie können auch außerhalb des VCN mit Oracle Cloud Infrastructure FastConnect und IPSec-VPN auf ein Dateisystem zugreifen.

  • Block-Volume

    Mit Block Storage Volumes können Sie Speicher-Volumes erstellen, anhängen, verbinden und verschieben sowie die Volume-Performance ändern, um Ihre Speicher-, Performance- und Anwendungsanforderungen zu erfüllen. Nach dem Anhängen und Verbinden eines Volumes mit einer Instanz können Sie das Volume wie ein herkömmliches Festplatte verwenden. Sie können ein Volume auch trennen und an eine andere Instanz anhängen, ohne Daten zu verlieren.

Vorkonfiguriert und bereitgestellt

Möchten Sie anzeigen, was Sie auf Oracle Cloud Infrastructure erstellt haben? Teilen Sie Ihre Erfahrungen, Best Practices und Referenzarchitekturen gemeinsam mit unserer globalen Community aus Cloud-Architekturen? Wir helfen Ihnen beim Einstieg.

  1. Vorlage herunterladen (PPTX)

    Veranschaulichen Sie Ihre eigene Referenzarchitektur, indem Sie die Symbole per Drag-and-Drop in den Beispiel-Drahtframe ziehen.

  2. Architektur-Tutorial anzeigen

    Erhalten Sie Schritt-für-Schritt-Anweisungen zum Erstellen einer Referenzarchitektur.

  3. Diagramm weiterleiten

    Senden Sie uns eine E-Mail mit Ihrem Diagramm. Unsere Cloud-Architekten prüfen Ihr Diagramm und wenden sich an Sie, um Ihre Architektur zu besprechen.

Danksagungen

  • Autor: Sasha Banks-Louie, Wei Han, Dimitri Manca
  • Beitragender: Robert Lies