Introduction à spark-submit et à la CLI

Ce tutoriel vous aide à commencer à exécuter une application Spark dans le service de flux de données à l'aide de spark-submit et à utiliser la chaîne execute dans l'interface de ligne de commande.

Suivez le tutoriel existant Introduction au service de flux de données pour Oracle Cloud Infrastructure, mais utilisez l'interface CLI pour exécuter les commandes spark-submit.

Avant de commencer

Vous devez effectuer certaines opérations préalables et configurer l'authentification avant d'utiliser les commandes spark-submit dans le service de flux de données avec l'interface CLI.

  1. Effectuez les opérations préalables pour utiliser spark-submit avec l'interface CLI.
  2. Configurez l'authentification pour utiliser spark-submit avec l'interface CLI.

Authentification pour utiliser spark-submit avec l'interface CLI

Configurez l'authentification pour utiliser spark-submit avec l'interface CLI.

Lorsque les préalables à l'utilisation de spark-submit avec l'interface CLI sont complets et que l'interface CLI est installée, configurez le profil d'authentification à l'aide des commandes suivantes :
 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token
Un profil est créé dans votre fichier ~/.oci/config. Utilisez le nom du profil pour exécuter le tutoriel.

1. Créer l'application Java à l'aide de spark-submit et de l'interface de ligne de commande

Utilisez Spark-submit et l'interface de ligne de commande pour suivre des tutoriels.

Utilisez spark-submit et l'interface CLI pour effectuer le premier exercice du tutoriel Introduction au service de flux de données pour Oracle Cloud Infrastructure : Extraction, transformation et chargement avec Java.
  1. Configurer votre location.
  2. Si vous n'avez pas de seau dans le service de stockage d'objets dans lequel enregistrer vos entrées et vos résultats, créez un seau avec une structure de dossier appropriée. Dans cet exemple, la structure du dossier est /output/tutorial1.
  3. Exécutez le code suivant :
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_1_ETL_Java \
    --execute '
        --class convert.Convert 
        --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
        kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'
    Si vous avez déjà exécuté ce tutoriel, supprimez le contenu du répertoire de sortie oci://<bucket-name>@<namespace-name>/output/tutorial1 pour éviter l'échec du tutoriel.
    Note

    Pour trouver l'ID compartiment, dans le menu de navigation, sélectionnez Identité et sélectionnez Compartiments. Les compartiments disponibles pour vous sont listés, y compris l'OCID de chacun.

2 : Apprentissage automatique avec PySpark

Utilisez Spark-submit et l'interface de ligne de commande pour effectuer l'apprentissage automatique avec PySpark,

Effectuer l'exercice 3. Apprentissage automatique avec PySpark, à partir du tutoriel Démarrage avec Oracle Cloud Infrastructure Data Flow.
  1. Avant de tenter cet exercice, remplissez 1. Créer l'application Java à l'aide de Spark-Submit et de l'interface de ligne de commande. Ses résultats sont utilisés dans cet exercice.
  2. Exécutez le code suivant :
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_3_PySpark_ML \
    --execute '
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
        oci://<your_bucket>@<namespace-name>/output/tutorial1'

Étape suivante

Utilisez Spark-submit et l'interface de ligne de commande dans d'autres situations.

Vous pouvez utiliser spark-submit à partir de l'interface de ligne de commande pour créer et exécuter des applications Java, Python ou SQL avec le service de flux de données et explorer les résultats. Le service de flux de données prend en charge tous les détails du déploiement, de la panne, de la gestion des journaux, de la sécurité et de l'accès à l'interface utilisateur. Avec le service de flux de données, vous pouvez vous concentrer sur le développement d'applications Spark sans vous soucier de l'infrastructure.