Data Flow-Anwendungen entwickeln

Erfahren Sie mehr über die Bibliothek , einschließlich wiederverwendbarer Spark-Anwendungsvorlagen und Anwendungssicherheit. Außerdem erfahren Sie, wie Anwendungen erstellt, angezeigt, bearbeitet und gelöscht werden und wie Sie Argumente oder Parameter anwenden.

Data Flow stoppt Batchjobs mit langer Ausführungszeit (mehr als 24 Stunden) automatisch mit einem Delegationstoken. Wenn die Anwendung in diesem Fall nicht mit der Verarbeitung der Daten fertig ist, kann es zu einem Ausführungsfehler kommen, und der Job bleibt nicht abgeschlossen. Um dies zu verhindern, verwenden Sie die folgenden Optionen, um die gesamte Ausführungszeit der Anwendung zu begrenzen:
Beim Erstellen von Anwendungen mit der Konsole
Geben Sie unter Erweiterte Optionen die Dauer in Max. Ausführungsdauer in Minuten an.
Beim Erstellen von Anwendungen mit der CLI
Übergeben Sie die Befehlszeilenoption von --max-duration-in-minutes <number>.
Beim Erstellen von Anwendungen mit dem SDK
Geben Sie das optionale Argument max_duration_in_minutes an.
Beim Erstellen von Anwendungen mit der API
Legen Sie das optionale Argument maxDurationInMinutes fest.

Wiederverwendbare Spark-Anwendungsvorlagen

Eine Anwendung  ist eine unendlich wiederverwendbare Spark-Anwendungsvorlage.

Datenflussanwendungen enthalten eine Spark-Anwendung, ihre Abhängigkeiten, Standardparameter und eine Spezifikation von Standardlaufzeitressourcen. Nachdem ein Spark-Entwickler eine Datenflussanwendung erstellt hat, kann sie von beliebigen Benutzern verwendet werden, ohne dass diese die Komplexität des Bereitstellens, Einrichtens oder Ausführens berücksichtigen müssen. Sie können sie über Spark-Analysen in benutzerdefinierten Dashboards, Berichten, Skripten oder REST-API-Aufrufen verwenden. Auf der linken Seite befindet sich eine Abbildung, die Spark-Entwickler darstellt. Ein Pfeil verläuft zu einem Feld, das veröffentlichte Anwendungen darstellt. Der Pfeil hat das Label "Publish: Parameterized Application" (Veröffentlichen: Parametrisierte Anwendung). Rechts neben dem Feld befindet sich eine weitere Abbildung, die Nicht-Entwickler darstellt. Ein Pfeil mit dem Label "Execute: Custom Reports" und "Custom Dashboards" (Ausführen: Benutzerdefinierte Berichte und benutzerdefinierte Dashboards) verläuft von den Nicht-Entwicklern zum Feld in der Mitte.

Wenn Sie die Datenflussanwendung aufrufen, erstellen Sie eine Ausführung . Es füllt die Details der Anwendungsvorlage aus und startet sie mit einer bestimmten Gruppe von IaaS-Ressourcen. Hier ist ein Feld mit der Bezeichnung "Data Flow Application" (Datenflussanwendung) dargestellt. Es enthält eine Liste: Link to Spark Code (Link zum Spark-Code), Dependencies (Abhängigkeiten), Default Driver/Executor Shape und Count (Ausprägung und Anzahl von Standardtreiber/-Executor), Arguments (Argumente) und Default Parameters (Standardparameter). Ein Pfeil mit dem Label "Run an Application" (Anwendung ausführen) verläuft zu einem anderen Feld mit der Bezeichnung "Data Flow Run" (Datenflussausführung). Dieses enthält die folgende Liste: Link to Spark Code (Link zum Spark-Code), Dependencies (Abhängigkeiten), Specific Driver/Executor Shapes and Counts (Ausprägungen und Anzahl von spezifischen Treibern/Executors), Arguments (Argumente), Specific Parameters (Spezifische Parameter), Spark UI (Spark-UI) und Log Output (Logausgabe).