Spark-Submit-Datenflussanwendung erstellen

Erstellen Sie eine Spark-Submit-Anwendung in Data Flow.

  • Laden Sie Ihre Spark-Submit-Dateien in Oracle Cloud Infrastructure Object Storage hoch. Weitere Informationen finden Sie unter Objektspeicher einrichten.
    1. Wählen Sie auf der Seite "Datenfluss" im linken Menü die Option Anwendungen aus. Wenn Sie Hilfe beim Suchen der Seite "Datenfluss" benötigen, finden Sie weitere Informationen unter Anwendungen auflisten.
    2. Wählen Sie auf der Seite Anwendungen die Option Anwendung erstellen aus.
    3. Geben Sie im Bereich Anwendung erstellen einen Namen für die Anwendung und eine optionale Beschreibung ein, mit der Sie nach der Anwendung suchen können.
    4. Geben Sie unter Ressourcenkonfiguration die folgenden Werte an. Informationen zur Berechnung der Anzahl der benötigten Ressourcen finden Sie unter Größe der Datenflussanwendung festlegen.
      1. Wählen Sie die Spark-Version aus.
      2. (Optional) Wählen Sie einen Pool aus.
      3. Wählen Sie unter Treiberausprägung den Typ des Clusterknotens aus, mit dem der Spark-Treiber gehostet werden soll.
      4. (Optional) Wenn Sie eine flexible Ausprägung für den Treiber ausgewählt haben, passen Sie die Anzahl der OCPUs und die Arbeitsspeichermenge an.
      5. Wählen Sie unter Executor-Ausprägung den Typ des Clusterknotens aus, mit dem jeder Spark-Executor gehostet werden soll.
      6. (Optional) Wenn Sie eine flexible Ausprägung für den Executor ausgewählt haben, passen Sie die Anzahl der OCPUs und die Arbeitsspeichermenge an.
      7. (Optional) Um die Verwendung der dynamischen Spark-Zuweisung (Autoscaling) zu aktivieren, wählen Sie Autoscaling aktivieren aus.
      8. Geben Sie die Anzahl Executors ein, die Sie benötigen. Wenn Sie die automatische Skalierung ausgewählt haben, geben Sie eine Mindest- und Höchstanzahl an Executors ein.
    5. Geben Sie unter Anwendungskonfiguration die folgenden Werte an.
      1. (Optional) Wenn die Anwendung für das Spark-Streaming bestimmt ist, wählen Sie Spark-Streaming aus.
      2. Wählen Sie Spark-Submit-Optionen verwenden aus. Folgende spark-submit-Optionen werden unterstützt:
        • --py-files
        • --files
        • --jars
        • --class
        • --conf - Eine beliebige Spark-Konfigurationseigenschaft im Format key=value. Wenn ein Wert Leerzeichen enthält, setzen Sie ihn in Anführungszeichen: "key=value". Übergeben Sie viele Konfigurationen als separate Argumente. Beispiel:
           --conf <key1>=<value1> --conf <key2>=<value2>
        • application-jar - Der Pfad zu einem gebündelten JAR, einschließlich der Anwendung und aller zugehörigen Abhängigkeiten.
        • application-arguments - Die Argumente, die an die Hauptmethode der Hauptklasse übergeben werden.
      3. Geben Sie im Textfeld Spark-Submit-Optionen die Optionen in folgendem Format ein:
         --py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip>
         --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json
         --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar
         --conf spark.sql.crossJoin.enabled=true
          oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
        Beispiel: Wenn Sie die Spark-Oracle-Datenquelle verwenden möchten, verwenden Sie die folgende Option:
        --conf spark.oracle.datasource.enable=true
        Wichtig

        Data Flow unterstützt keine URIs, die mit local:// oder hdfs:// beginnen. Die URI muss mit oci:// beginnen. Daher müssen sich alle Dateien (einschließlich main-application) in Oracle Cloud Infrastructure Object Storage befinden, und Sie müssen für jede Datei den vollqualifizierten Domainnamen (FQDN) verwenden.
      4. (Optional) Wenn Sie eine archive.zip-Datei haben, laden Sie archive.zip in Oracle Cloud Infrastructure Object Storage hoch, und füllen Sie die Archiv-URI mit dem zugehörigen Pfad auf. Hierfür gibt es zwei Möglichkeiten:
        • Wählen Sie die Datei aus der Liste Object Storage-Dateiname aus. Wählen Sie Compartment ändern aus, wenn sich der Bucket in einem anderen Compartment befindet.
        • Wählen Sie Dateipfad manuell eingeben aus, und geben Sie den Dateinamen und den zugehörigen Pfad im folgenden Format ein:
           oci://<bucket_name>@<namespace_name>/<file_name>
      5. Geben Sie unter Speicherort des Anwendungslogs auf eine der folgenden Arten an, wo Sie Oracle Cloud Infrastructure Logging aufnehmen möchten:
        • Wählen Sie den Bucket dataflow-logs in der Liste Object Storage-Dateiname aus. Wählen Sie Compartment ändern aus, wenn sich der Bucket in einem anderen Compartment befindet.
        • Wählen Sie Bucket-Pfad manuell eingeben aus, und geben Sie den entsprechenden Bucket-Pfad in folgendem Format ein:
           oci://dataflow-logs@<namespace_name>
        • Wählen Sie nicht Bucket-Pfad manuell eingeben aus, und wählen Sie die Datei aus.
      6. (Optional) Wählen Sie den Metastore in der Liste aus. Wenn sich der Metastore in einem anderen Compartment befindet, wählen Sie zuerst Compartment ändern aus, und wählen Sie ein anderes Compartment aus. Wählen Sie dann den Metastore in der Liste aus. Der Default Managed Table Location wird basierend auf Ihrem Metastore automatisch aufgefüllt.
    6. (Optional) Fügen Sie im Abschnitt Tags dem <resourceType> mindestens ein Tag hinzu. Wenn Sie über Berechtigungen zum Erstellen einer Ressource verfügen, sind Sie auch berechtigt, Freiformtags auf diese Ressource anzuwenden. Um ein definiertes Tag anzuwenden, müssen Sie über die Berechtigungen verfügen, den Tag-Namespace zu verwenden. Weitere Informationen zum Tagging finden Sie unter Ressourcentags. Wenn Sie nicht sicher sind, ob Sie Tags anwenden sollen, überspringen Sie diese Option, oder fragen Sie einen Administrator. Sie können Tags später anwenden.
    7. (Optional) Wählen Sie Erweiterte Optionen anzeigen aus, und geben Sie die folgenden Werte an.
      1. (Optional) Wählen Sie "Resource Principal-Authentifizierung verwenden", um einen schnelleren Start zu aktivieren, oder wenn die Ausführung voraussichtlich mehr als 24 Stunden dauert. Sie müssen Resource Principal Policys einrichten.
      2. Aktivieren Sie Delta Lake aktivieren, um Delta Lake zu verwenden.
        1. Wählen Sie die Delta Lake-Version aus. Der ausgewählte Wert wird in den Schlüssel/Wert-Paaren der Spark-Konfigurationseigenschaften widergespiegelt.
        2. Wählen Sie die Loggruppe aus.
      3. (Optional) Wählen Sie Spark-Oracle-Datenquelle aktivieren aus, um die Spark-Oracle-Datenquelle zu verwenden.
      4. (Optional) Wählen Sie im Abschnitt Logs die Loggruppen und die Anwendungslogs für Oracle Cloud Infrastructure Logging aus. Wenn sich die Loggruppen in einem anderen Compartment befinden, wählen Sie Compartment ändern aus.
      5. Fügen Sie Spark-Konfigurationseigenschaften hinzu. Geben Sie ein Schlüssel/Wert-Paar ein.
      6. Wählen Sie + Weitere Eigenschaft aus, um eine weitere Konfigurationseigenschaft hinzuzufügen.
      7. Wiederholen Sie die Schritte b und c, bis Sie alle Konfigurationseigenschaften hinzugefügt haben.
      8. Setzen Sie den Standardwert für den Warehouse Bucket außer Kraft, indem Sie die Warehouse-Bucket-URI im folgenden Format auffüllen:
        oci://<warehouse-name>@<tenancy>
      9. Wählen Sie unter Netzwerkzugriff auswählen eine der folgenden Optionen aus:
        • Wenn Sie Privaten Endpunkt an Datenfluss anhängen sind, aktivieren Sie das Optionsfeld Sicherer Zugriff auf privates Subnetz. Wählen Sie den privaten Endpunkt in der angezeigten Liste aus.
          Hinweis

          Für die Verbindung zum privaten Endpunkt können Sie keine IP-Adresse verwenden. Sie müssen den FQDN verwenden.
        • Wenn Sie keinen privaten Endpunkt verwenden, aktivieren Sie das Kontrollkästchen Internetzugang (kein Subnetz).
      10. (Optional) So aktivieren Sie die Datenherkunftserfassung:
        1. Wählen Sie Datenherkunftserfassung aktivieren aus.
        2. Wählen Sie Datenkatalog manuell eingeben aus, oder wählen Sie eine Data Catalog-Instanz aus einem konfigurierbaren Compartment im aktuellen Mandanten aus.
        3. (Optional) Wenn Sie im vorherigen Schritt Datenkatalog manuell eingeben ausgewählt haben, geben Sie die Werte für Data Catalog-Mandanten-OCID, Data Catalog-Compartment-OCID und Data Catalog-Instanz-ODID ein.
      11. (Optional) Geben Sie für Max. Ausführungsdauer in Minuten nur für Batchjobs einen Wert zwischen 60 (1 Stunde) und 10080 (7 Tage) ein. Wenn Sie keinen Wert eingeben, wird die weitergeleitete Ausführung fortgesetzt, bis sie erfolgreich ist, nicht erfolgreich verläuft, abgebrochen wird oder die maximale Standarddauer (24 Stunden) erreicht.
    8. Wählen Sie Erstellen aus, um die Anwendung zu erstellen, oder wählen Sie Als Stack speichern aus, um sie später zu erstellen.
      Informationen zum zukünftigen Ändern der Werte für Name und Datei-URL finden Sie unter Anwendung bearbeiten.
  • Verwenden Sie den Befehl create und die erforderlichen Parameter, um eine Anwendung zu erstellen:

    oci data-flow application create [OPTIONS]
    Eine vollständige Liste der Flags und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.
  • Führen Sie den Vorgang CreateApplication aus, um eine Anwendung zu erstellen.