Größe der Data Flow-Anwendung festlegen

Bei jedem Ausführen einer Datenflussanwendung geben Sie eine Größe und Anzahl von Executors an, die wiederum die Anzahl der OCPUs zum Ausführen der Spark-Anwendung bestimmen.

Eine OCPU entspricht einem CPU-Core, der selbst gleich zwei vCPUs ist. Weitere Informationen zur Anzahl der in jeder Ausprägung enthaltenen OCPUs finden Sie unter Compute-Ausprägungen.

Grob gerechnet werden 10 GB Daten pro OCPU pro Stunde verarbeitet. Optimierte Datenformate wie Parkett können viel schneller ausgeführt werden, weil nur eine kleine Teilgruppe von Daten verarbeitet wird. Die Formel zur Berechnung der Anzahl der erforderlichen OCPUs, vorausgesetzt, 10 GB Daten pro OCPU pro Stunde werden verarbeitet, lautet:
<Number_of_OCPUs> = <Processed_Data_in_GB> / (10 * <Desired_runtime_in_hours>)
Beispiel: Um 1 TB Daten gemäß Servicevereinbarung innerhalb von 30 Minuten zu verarbeiten, sollten voraussichtlich rund 200 OCPUs verwendet werden:
<Number_of_OCPUs> = 1024 / (10 * 0.5) = 204.8

Sie können 200 OCPUs auf verschiedene Arten zuweisen. Beispiel: Sie können die Executor-Ausprägung VM.Standard2.8 und insgesamt 25 Executors für 8 * 25 = 200 OCPUs insgesamt auswählen.

Diese Formel ist eine grobe Schätzung, und die Laufzeiten können variieren. Sie können die tatsächliche Verarbeitungsrate der Workload besser einschätzen, indem Sie die Anwendung laden und die Historie der Anwendungsausführungen anzeigen. Mit dieser Historie können Sie die Anzahl der verwendeten OCPUs, die insgesamt verarbeiteten Daten und die Laufzeit anzeigen. So können Sie die Ressourcen abschätzen, die Sie benötigen, um die SLAs zu erfüllen. Von dort aus schätzen Sie die Datenmenge, die von einer Ausführung verarbeitet wird, und skalieren die Ausführung entsprechend.
Hinweis

Die Anzahl der OCPUs wird durch die ausgewählte VM-Ausprägung und das im Mandanten für VM.Total festgelegte Werteset begrenzt. Sie können nicht mehr VMs in allen VM-Ausprägungen verwenden als der in VM.Total angegebene Wert. Beispiel: Wenn jede VM-Ausprägung auf 20 und VM.Total auf 20 gesetzt ist, können Sie nicht mehr als 20 VMs in allen VM-Ausprägungen verwenden. Bei flexiblen Ausprägungen, bei denen der Grenzwert als Cores oder OCPUs gemessen wird, sind 80 Cores in einer flexiblen Ausprägungen gleich 10 VM.Standard2.8-Ausprägungen. Weitere Informationen finden Sie unter Servicelimits.

Flexible Compute-Ausprägungen

Data Flow unterstützt flexible Compute-Ausprägungen für Spark-Jobs.

Die folgenden flexiblen Compute-Ausprägungen werden unterstützt:
  • VM.Standard3.Flex (Intel)
  • VM.StandardE3.Flex (AMD)
  • VM.StandardE4.Flex (AMD)
  • VM.Standard.A1.Flex (ARM-Prozessor von Ampere)
Weitere Informationen zu flexiblen Compute-Ausprägungen finden Sie in der Compute-Dokumentation.
Wenn Sie eine Anwendung erstellen oder eine Anwendung bearbeiten, wählen Sie die flexible Ausprägung für Treiber und Executor aus. Für jede OCPU-Auswahl können Sie die Option für flexiblen Arbeitsspeicher auswählen.
Hinweis

Treiber und Executor müssen dieselbe Ausprägung aufweisen.

Anwendungen von VM.Standard2-Compute-Ausprägungen migrieren

Führen Sie diese Schritte aus, wenn Sie vorhandene Data Flow-Anwendungen von VM.Standard2 in flexible Compute-Ausprägungen migrieren.

  1. Fordern Sie die Limits für die ausgewählte flexible Ausprägung an.
    Die OCPU-Anzahl definiert die Limits für flexible Ausprägungen. Bei VM.Standard2-Compute-Ausprägungen wurden die Limits anhand der Knotenanzahl definiert. Beispiel: Wenn eine Anwendung 16 OCPUs für Treiber und 16 OCPUs für einen Executor verwendet, fordern Sie bei Ihrem Antrag auf Limiterhöhung 32 OCPUs an.
  2. (Optional) Wenn Sie mehr nebenläufige Jobs in verschiedenen Ausprägungen ausführen möchten, fordern Sie mehr Vm.Total an.
  3. Wenn Sie eine Anwendung erstellen oder eine Anwendung bearbeiten, wählen Sie die flexible Ausprägung für Treiber und Executor aus.
    Hinweis

    Treiber und Executor müssen dieselbe Ausprägung aufweisen.
  4. (Optional) Wählen Sie für jede OCPU-Auswahl die Option für flexiblen Arbeitsspeicher aus.