PySpark-Datenflussanwendung erstellen

Gehen Sie wie folgt vor, um eine PySpark-Anwendung in Data Flow zu erstellen.

  • Laden Sie Ihre Spark-Submit-Dateien in Oracle Cloud Infrastructure Object Storage hoch. Weitere Informationen finden Sie unter Objektspeicher einrichten.
    1. Wählen Sie auf der Seite "Datenfluss" im linken Menü die Option Anwendungen aus. Wenn Sie Hilfe beim Suchen der Seite "Datenfluss" benötigen, finden Sie weitere Informationen unter Anwendungen auflisten.
    2. Wählen Sie auf der Seite Anwendungen die Option Anwendung erstellen aus.
    3. Geben Sie im Bereich Anwendung erstellen einen Namen für die Anwendung und eine optionale Beschreibung ein, mit der Sie nach der Anwendung suchen können.
    4. Geben Sie unter Ressourcenkonfiguration die folgenden Werte an. Informationen zur Berechnung der Anzahl der benötigten Ressourcen finden Sie unter Größe der Datenflussanwendung festlegen.
      1. Wählen Sie die Spark-Version aus.
      2. (Optional) Wählen Sie einen Pool aus.
      3. Wählen Sie unter Treiberausprägung den Typ des Clusterknotens aus, mit dem der Spark-Treiber gehostet werden soll.
      4. (Optional) Wenn Sie eine flexible Ausprägung für den Treiber ausgewählt haben, passen Sie die Anzahl der OCPUs und die Arbeitsspeichermenge an.
      5. Wählen Sie unter Executor-Ausprägung den Typ des Clusterknotens aus, mit dem jeder Spark-Executor gehostet werden soll.
      6. (Optional) Wenn Sie eine flexible Ausprägung für den Executor ausgewählt haben, passen Sie die Anzahl der OCPUs und die Arbeitsspeichermenge an.
      7. (Optional) Um die Verwendung der dynamischen Spark-Zuweisung (Autoscaling) zu aktivieren, wählen Sie Autoscaling aktivieren aus.
      8. Geben Sie die Anzahl der benötigten Executors ein. Wenn Sie die automatische Skalierung ausgewählt haben, geben Sie eine Mindest- und Höchstanzahl an Executors ein.
    5. Geben Sie unter Anwendungskonfiguration die folgenden Werte an.
      1. (Optional) Wenn die Anwendung für das Spark-Streaming bestimmt ist, wählen Sie Spark-Streaming aus
      1. Hinweis

        Sie müssen die Schritte unter Erste Schritte mit Spark Streaming ausführen, damit Ihre Streaminganwendung funktioniert.
      2. Wählen Sie Nicht die Option Spark-Submit-Optionen verwenden aus.
      3. Wählen Sie in den Sprachoptionen die Option Python aus.
      4. Geben Sie unter Datei auswählen die Datei-URL für die Anwendung ein. Es gibt zwei Möglichkeiten, dies zu tun:
        • Wählen Sie die Datei aus der Liste Object Storage-Dateiname aus. Wählen Sie Compartment ändern aus, wenn sich der Bucket in einem anderen Compartment befindet.
        • Wählen Sie Datei-URL manuell eingeben aus, und geben Sie den Dateinamen und den zugehörigen Pfad im folgenden Format ein:
           oci://<bucket_name>@<objectstore_namespace>/<file_name>
      5. Geben Sie den Hauptklassennamen ein.
      6. (Optional) Geben Sie alle Argumente ein, mit denen die Hauptklasse aufgerufen werden soll. Es gibt keine Grenze für ihre Zahl oder ihre Namen. Beispiel: Geben Sie im Feld Argumente Folgendes ein:
        ${<argument_1>} ${<argument_2>}
        Sie werden zur Eingabe des Standardwertes aufgefordert. Es wird empfohlen, diesen jetzt einzugeben. Jedes Mal, wenn Sie ein Argument hinzufügen, wird ein Parameter mit dem Namen angezeigt, wie im Feld Argument eingegeben, und ein Textfeld, in das der Parameterwert eingegeben werden soll.

        Wenn Spark-Streaming angegeben ist, müssen Sie den Checkpointordner als Argument aufnehmen. In einem Beispiel aus dem Beispielcode auf GitHub wird beschrieben, wie Sie einen Checkpoint als Argument übergeben.

        Hinweis

        Verwenden Sie im Parameternamen oder -wert weder das Zeichen "$" noch "/".
      7. (Optional) Wenn Sie eine archive.zip-Datei haben, laden Sie die Datei in Oracle Cloud Infrastructure Object Storage hoch, und füllen Sie die Archiv-URI mit dem zugehörigen Pfad auf. Hierfür gibt es zwei Möglichkeiten:
        • Wählen Sie die Datei aus der Liste Object Storage-Dateiname aus. Wählen Sie Compartment ändern aus, wenn sich der Bucket in einem anderen Compartment befindet.
        • Wählen Sie Dateipfad manuell eingeben aus, und geben Sie den Dateinamen und den zugehörigen Pfad im folgenden Format ein:
           oci://<bucket_name>@<namespace_name>/<file_name>
      8. Geben Sie unter Speicherort des Anwendungslogs auf eine der folgenden Arten an, wo Sie Oracle Cloud Infrastructure Logging aufnehmen möchten:
        • Wählen Sie den Bucket dataflow-logs in der Liste Object Storage-Dateiname aus. Wählen Sie Compartment ändern aus, wenn sich der Bucket in einem anderen Compartment befindet.
        • Wählen Sie Bucket-Pfad manuell eingeben aus, und geben Sie den entsprechenden Bucket-Pfad in folgendem Format ein:
           oci://dataflow-logs@<namespace_name>
      9. (Optional) Wählen Sie den Metastore in der Liste aus. Wenn sich der Metastore in einem anderen Compartment befindet, wählen Sie Compartment ändern aus. Der standardmäßige Speicherort der verwalteten Tabelle wird basierend auf dem Metastore automatisch aufgefüllt.
    6. (Optional) Fügen Sie im Abschnitt Tags dem <resourceType> mindestens ein Tag hinzu. Wenn Sie über Berechtigungen zum Erstellen einer Ressource verfügen, sind Sie auch berechtigt, Freiformtags auf diese Ressource anzuwenden. Um ein definiertes Tag anzuwenden, müssen Sie über die Berechtigungen verfügen, den Tag-Namespace zu verwenden. Weitere Informationen zum Tagging finden Sie unter Ressourcentags. Wenn Sie nicht sicher sind, ob Sie Tags anwenden sollen, überspringen Sie diese Option, oder fragen Sie einen Administrator. Sie können Tags später anwenden.
    7. (Optional) Fügen Sie erweiterte Konfigurationsoptionen hinzu.
      1. Wählen Sie Erweiterte Optionen anzeigen.
      2. (Optional) Wählen Sie "Resource Principal-Authentifizierung verwenden", um einen schnelleren Start zu aktivieren, oder wenn die Ausführung voraussichtlich mehr als 24 Stunden dauert.
      3. (Optional) Wählen Sie Spark-Oracle-Datenquelle aktivieren aus, um die Spark-Oracle-Datenquelle zu verwenden.
      4. Wählen Sie eine Delta Lake-Version aus. Der ausgewählte Wert wird in den Schlüssel/Wert-Paaren der Spark-Konfigurationseigenschaften widergespiegelt. Informationen zu Delta Lake finden Sie unter Data Flow und Delta Lake.
      5. Wählen Sie im Abschnitt Logs die Loggruppen und die Anwendungslogs für Oracle Cloud Infrastructure Logging aus. Sie können das Compartment ändern, wenn sich die Loggruppen in einem anderen Compartment befinden.
      6. Geben Sie den Schlüssel der Spark-Konfigurationseigenschaft und einen Wert ein.
        • Wenn Sie Spark-Streaming verwenden, nehmen Sie den Schlüssel spark.sql.streaming.graceful.shutdown.timeout mit einem Wert von maximal 30 Minuten (in Millisekunden) auf.
        • Wenn Sie die Spark-Oracle-Datenquelle verwenden, nehmen Sie den Schlüssel spark.oracle.datasource.enabled mit dem Wert true auf.
      7. Wählen Sie + Weitere Eigenschaft aus, um eine weitere Konfigurationseigenschaft hinzuzufügen.
      8. (Optional) Setzen Sie den Standardwert für den Warehouse Bucket außer Kraft, indem Sie die Warehouse-Bucket-URI im folgenden Format auffüllen:
        oci://<warehouse-name>@<tenancy>
      9. Wählen Sie den Netzwerkzugriff aus.
        1. Wenn Sie einen privaten Endpunkt an Data Flow anhängen, wählen Sie Sicherer Zugriff auf privates Subnetz aus. Wählen Sie den privaten Endpunkt in der angezeigten Liste aus.
          Hinweis

          Für die Verbindung zum privaten Endpunkt können Sie keine IP-Adresse verwenden. Sie müssen den FQDN verwenden.
        2. Wenn Sie keinen privaten Endpunkt verwenden, wählen Sie Internetzugriff (Kein Subnetz) aus.
      10. (Optional) So aktivieren Sie die Datenherkunftserfassung:
        1. Wählen Sie Datenherkunftserfassung aktivieren aus.
        2. Wählen Sie Datenkatalog manuell eingeben aus, oder wählen Sie eine Data Catalog-Instanz aus einem konfigurierbaren Compartment im aktuellen Mandanten aus.
        3. (Optional) Wenn Sie im vorherigen Schritt Datenkatalog manuell eingeben ausgewählt haben, geben Sie die Werte für Data Catalog-Mandanten-OCID, Data Catalog-Compartment-OCID und Data Catalog-Instanz-ODID ein.
      11. Geben Sie unter Max. Ausführungsdauer in Minuten einen Wert zwischen 60 (1 Stunde) und 10080 (7 Tage) ein. Wenn Sie keinen Wert eingeben, wird die weitergeleitete Ausführung fortgesetzt, bis sie erfolgreich ist, nicht erfolgreich verläuft, abgebrochen wird oder die maximale Standarddauer (24 Stunden) erreicht.
    8. Wählen Sie Erstellen aus, um die Anwendung zu erstellen, oder wählen Sie Als Stack speichern aus, um sie später zu erstellen.
      Informationen zum zukünftigen Ändern der Werte für Sprache, Name und Datei-URL finden Sie unter Anwendung bearbeiten. Sie können die Sprache nur zwischen Java und Scala ändern. Sie können es nicht in Python oder SQL ändern.
  • Verwenden Sie den Befehl create und die erforderlichen Parameter, um eine Anwendung zu erstellen:

    oci data-flow application create [OPTIONS]
    Eine vollständige Liste der Flags und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.
  • Führen Sie den Vorgang CreateApplication aus, um eine Anwendung zu erstellen.