Introduction à spark-submit et à l'interface de ligne de commande

Tutoriel vous aidant à commencer à exécuter une application Spark dans Data Flow à l'aide de spark-submit tout en utilisant la chaîne execute dans l'interface de ligne de commande.

Suivez le tutoriel existant Introduction à Oracle Cloud Infrastructure Data Flow, mais utilisez l'interface de ligne de commande pour exécuter les commandes spark-submit.

Avant de commencer

Effectuez certains prérequis et configurez l'authentification pour pouvoir utiliser les commandes spark-submit dans Data Flow with CLI.

Prérequis pour l'utilisation de spark-submit avec l'interface de ligne de commande

Effectuez les prérequis suivants pour l'utilisation de spark-submit avec l'interface de ligne de commande.

Authentification pour l'utilisation de spark-submit avec l'interface de ligne de commande

Configurez l'authentification pour l'utilisation de spark-submit avec l'interface de ligne de commande.

Lorsque les prérequis pour l'utilisation de spark-submit avec l'interface de ligne de commande sont terminés et que l'interface de ligne de commande est installée, configurez le profil d'authentification à l'aide des commandes suivantes :

 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token

Un profil est créé dans le fichier ~/.oci/config. Utilisez le nom du profil pour exécuter le tutoriel.

1. Création de l'application Java à l'aide de spark-submit et de l'interface de ligne de commande

Utilisez Spark-submit et l'interface de ligne de commande pour réaliser des tutoriels.

Utilisez spark-submit et l'interface de ligne de commande pour effectuer le premier exercice, ETL avec Java, du tutoriel Introduction à Oracle Cloud Infrastructure Data Flow.

Configurez la location.
Si vous ne disposez pas d'un bucket dans Object Storage dans lequel vous pouvez enregistrer votre entrée et vos résultats, vous devez en créer un avec une structure de dossiers appropriée. Dans cet exemple, la structure de dossiers est /output/tutorial1.

Exécutez le code suivant :

oci --profile <profile-name> --auth security_token data-flow run submit \
--compartment-id <compartment-id> \
--display-name Tutorial_1_ETL_Java \
--execute '
    --class convert.Convert 
    --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
    oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
    kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'

Si vous avez déjà réalisé ce tutoriel avant, supprimez le contenu du répertoire de sortie, oci://<bucket-name>@<namespace-name>/output/tutorial1, pour éviter l'échec du tutoriel.

Remarque

Pour rechercher l'ID de compartiment, sélectionnez Identité dans le menu de navigation, puis Compartiments. Les compartiments disponibles sont répertoriés, y compris l'OCID de chacun.

2: Apprentissage automatique avec PySpark

Utiliser Spark-submit et l'interface de ligne de commande pour effectuer l'apprentissage automatique avec PySpark,

Effectuez l'exercice 3. Machine Learning avec PySpark, à partir du tutoriel Introduction à Oracle Cloud Infrastructure Data Flow.

Avant d'essayer cet exercice, terminez 1. Créez l'application Java à l'aide de Spark-Submit et de l'interface de ligne de commande. Les résultats sont utilisés ici.

Exécutez le code suivant :

oci --profile <profile-name> --auth security_token data-flow run submit \
--compartment-id <compartment-id> \
--display-name Tutorial_3_PySpark_ML \
--execute '
    oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
    oci://<your_bucket>@<namespace-name>/output/tutorial1'

Etapes suivantes

Utilisez Spark-submit et l'interface de ligne de commande dans d'autres situations.

Vous pouvez utiliser spark-submit à partir de l'interface de ligne de commande pour créer et exécuter des applications Java, Python ou SQL avec Data Flow, et explorer les résultats. Data Flow gère tous les détails du déploiement, de la désactivation, de la gestion des journaux, de la sécurité et de l'accès utilisateur. Avec Data Flow, vous pouvez vous concentrer sur le développement d'applications Spark sans vous soucier de l'infrastructure.