Erste Schritte mit spark-submit und CLI

Ein Tutorial für die ersten Schritte bei der Ausführung einer Spark-Anwendung in Data Flow mit spark-submit bei Verwendung der Zeichenfolge execute in der CLI.

Befolgen Sie das vorhandene Tutorial Erste Schritte mit Oracle Cloud Infrastructure Data Flow, führen Sie jedoch die spark-submit-Befehle mit der CLI aus.

Bevor Sie beginnen

Geben Sie einige Voraussetzungen ein, und richten Sie die Authentifizierung ein, bevor Sie Befehle zum Übermitteln von Funken in Data Flow mit der CLI verwenden können.

  1. Erfüllen Sie die Voraussetzungen für die Verwendung von spark-submit mit der CLI.
  2. Richten Sie die Authentifizierung für die Verwendung von spark-submit mit der CLI ein.

Authentifizierung für die Verwendung von spark-submit mit der CLI

Richten Sie die Authentifizierung für die Verwendung von spark-submit mit der CLI ein.

Wenn Sie die Voraussetzungen für die Verwendung von spark-submit mit der CLI erfüllt und die CLI installiert haben, richten Sie das Authentifizierungsprofil mit den folgenden Befehlen ein:
 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token
In der ~/.oci/config-Datei wird ein Profil erstellt. Verwenden Sie den Profilnamen, um das Tutorial auszuführen.

1. Java-Anwendung mit Spark-Submit und CLI erstellen

Verwenden Sie Spark-Submit und die CLI, um Tutorials abzuschließen.

Verwenden Sie spark-submit und CLI, um die erste Übung ETL mit Java aus dem Tutorial Erste Schritte mit Oracle Cloud Infrastructure Data Flow abzuschließen.
  1. Richten Sie Ihren Mandanten ein.
  2. Wenn Sie keinen Bucket in Object Storage haben, in dem Sie Ihre Eingabe und Ergebnisse speichern können, müssen Sie einen Bucket erstellen und eine geeignete Ordnerstruktur anlegen. In diesem Beispiel lautet die Ordnerstruktur /output/tutorial1.
  3. Führen Sie diesen Code aus:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_1_ETL_Java \
    --execute '
        --class convert.Convert 
        --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
        kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'
    Wenn Sie dieses Tutorial zuvor ausgeführt haben, löschen Sie den Inhalt des Ausgabeverzeichnisses oci://<bucket-name>@<namespace-name>/output/tutorial1, um zu verhindern, dass das Tutorial nicht erfolgreich verläuft.
    Hinweis

    Um die Compartment-ID zu suchen, wählen Sie im Navigationsmenü die Option Identität aus, und wählen Sie Compartments aus. Die für Sie verfügbaren Compartments, einschließlich der jeweiligen OCID, werden aufgelistet.

2: Maschinelles Lernen mit PySpark

Verwenden Sie Spark-Submit und CLI, um maschinelles Lernen mit PySpark durchzuführen.

Führen Sie die Übung 3 aus. Machine Learning mit PySpark aus dem Tutorial Erste Schritte mit Oracle Cloud Infrastructure Data Flow.
  1. Bevor Sie diese Übung ausführen, schließen Sie 1 ab. Java-Anwendung mit Spark-Submit und CLI erstellen. Die Ergebnisse werden in dieser Übung verwendet.
  2. Führen Sie den folgenden Code aus:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_3_PySpark_ML \
    --execute '
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
        oci://<your_bucket>@<namespace-name>/output/tutorial1'

Wie geht es weiter?

Verwenden Sie Spark-Submit und die CLI in anderen Situationen.

Mit spark-submit über die CLI können Sie Java-, Python- oder SQL-Anwendungen mit Data Flow erstellen und ausführen und die Ergebnisse untersuchen. Data Flow verarbeitet alle Details zu Deployment, Ausfall, Logmanagement, Sicherheit und UI-Zugriff. Mit Data Flow können Sie sich auf die Entwicklung von Spark-Anwendungen konzentrieren, ohne sich mit der Infrastruktur befassen zu müssen.