Introducción a Spark-Submit y CLI

Un tutorial que le ayudará a empezar a ejecutar una aplicación Spark en Data Flow mediante spark-submit mientras utiliza la cadena execute en CLI.

Siga el tutorial Introducción a Oracle Cloud Infrastructure Data Flow, pero utilice CLI para ejecutar comandos de spark-submit.

Antes de empezar

Complete algunos requisitos y configure la autenticación antes de utilizar los comandos de spark-submit en Data Flow con la CLI.

  1. Complete los requisitos para usar spark-submit con la CLI.
  2. Configure la autenticación para utilizar spark-submit con la CLI.

Autenticación para usar spark-submit con CLI

Configure la autenticación para utilizar spark-submit con la CLI.

Cuando haya completado los requisitos previos para usar spark-submit con la CLI y la CLI esté instalada, configure el perfil de autenticación con los siguientes comandos:
 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token
Se crea un perfil en ~/.oci/config file. Utilice el nombre del perfil para ejecutar el tutorial.

1. Creación de la aplicación Java mediante spark-submit y la CLI

Utilice Spark-submit y la CLI para completar los tutoriales.

Utilice spark-submit y CLI para completar el primer ejercicio (ETL con Java) en el tutorial Introducción a Oracle Cloud Infrastructure Data Flow.
  1. Configuración del arrendamiento.
  2. Si no tiene un cubo en Object Storage en el que poder guardar la entrada y los resultados, debe crear un cubo con una estructura de carpetas adecuada. En este ejemplo, la estructura de carpetas es /output/tutorial1.
  3. Ejecute este código:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_1_ETL_Java \
    --execute '
        --class convert.Convert 
        --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
        kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'
    Si ha ejecutado este tutorial antes, suprima el contenido del directorio de salida, oci://<bucket-name>@<namespace-name>/output/tutorial1, para evitar fallos en el tutorial.
    Nota

    Para buscar el ID de compartimento, en el menú de navegación, seleccione Identidad y seleccione Compartimentos. Se muestran los compartimentos disponibles, incluido el OCID de cada uno.

2: Machine Learning con PySpark

Utilice Spark-submit y CLI para llevar a cabo el aprendizaje automático con PySpark,

Realice el ejercicio 3. Aprendizaje automático con PySpark, del tutorial Introducción a Oracle Cloud Infrastructure Data Flow.
  1. Antes de probar este ejercicio, complete 1. Cree la aplicación Java mediante Spark-Submit y CLI. Sus resultados se utilizan en este ejercicio.
  2. Ejecute el siguiente comando:
    oci --profile <profile-name> --auth security_token data-flow run submit \
    --compartment-id <compartment-id> \
    --display-name Tutorial_3_PySpark_ML \
    --execute '
        oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
        oci://<your_bucket>@<namespace-name>/output/tutorial1'

Siguiente paso

Utilice Spark-submit y la CLI en otras situaciones.

Puede utilizar spark-submit de la CLI para crear y ejecutar aplicaciones Java, Python o SQL con Data Flow y explorar los resultados. Data Flow gestiona todos los detalles del despliegue, el desmontaje, la gestión de logs, la seguridad y el acceso a la interfaz de usuario. Con Data Flow, se centra en el desarrollo de aplicaciones Spark sin preocuparse por la infraestructura.