Guida introduttiva a Spark-Submit e CLI

Esercitazione che consente di iniziare a eseguire un'applicazione Spark in Data Flow utilizzando spark-submit durante l'utilizzo della stringa execute nell'interfaccia CLI.

Segui l'esercitazione esistente per la guida introduttiva a Oracle Cloud Infrastructure Data Flow, ma utilizza l'interfaccia CLI per eseguire i comandi spark-submit.

Informazioni preliminari

Completare alcuni prerequisiti e impostare l'autenticazione prima di poter utilizzare i comandi spark-submit in Data Flow con CLI.

  1. Completare i prerequisiti per l'uso di spark-submit con CLI.
  2. Impostare l'autenticazione per utilizzare spark-submit con CLI.

Autenticazione per utilizzare Spark-submit con CLI

Impostare l'autenticazione per utilizzare spark-submit con CLI.

Quando i prerequisiti per l'uso di spark-submit con CLI sono completi e l'interfaccia CLI è installata, impostare un profilo di autenticazione con i comandi seguenti:
 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token
Viene creato un profilo nel file ~/.oci/config file . Utilizzare il nome del profilo per eseguire l'esercitazione.

1. Creare l'applicazione Java mediante Spark-Submit e CLI

Utilizza Spark-submit e l'interfaccia CLI per completare le esercitazioni.

Utilizza spark-submit e CLI per completare il primo esercizio, ETL con Java, dall'esercitazione sulla Guida introduttiva a Oracle Cloud Infrastructure Data Flow.
  1. Impostare la tenancy.
  2. Se non si dispone di un bucket nello storage degli oggetti in cui è possibile salvare l'input e i risultati, è necessario creare un bucket con una struttura di cartelle appropriata. In questo esempio, la struttura delle cartelle è /output/tutorial1.
  3. Esegui questo codice:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_1_ETL_Java \
    --execute '
        --class convert.Convert 
        --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
        kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'
    Se si è già eseguito questo tutorial, eliminare il contenuto della directory di output, oci://<bucket-name>@<namespace-name>/output/tutorial1, per evitare che l'esercitazione non riesca.
    Nota

    Per trovare l'ID compartimento, nel menu di navigazione selezionare Identità e selezionare Compartimenti. I compartimenti disponibili sono elencati, incluso l'OCID di ciascuno.

2: Machine Learning con PySpark

Utilizza Spark-submit e CLI per eseguire il Machine Learning con PySpark,

Completare l'esercizio 3. Machine Learning con PySpark, dall'esercitazione su Introduzione a Oracle Cloud Infrastructure Data Flow.
  1. Prima di provare questo esercizio, completare 1. Creare l'applicazione Java mediante Spark-Submit e CLI. I risultati vengono utilizzati in questo esercizio.
  2. Eseguire il seguente codice:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_3_PySpark_ML \
    --execute '
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
        oci://<your_bucket>@<namespace-name>/output/tutorial1'

Pagina successiva

Utilizzare Spark-submit e l'interfaccia CLI in altre situazioni.

Puoi utilizzare spark-submit dall'interfaccia CLI per creare ed eseguire le applicazioni Java, Python o SQL con Data Flow ed esplorare i risultati. Data Flow gestisce tutti i dettagli di distribuzione, eliminazione, gestione dei log, sicurezza e accesso all'interfaccia utente. Data Flow ti consente di sviluppare applicazioni Spark senza preoccuparti dell'infrastruttura.