Conceitos Básicos do Script Spark-Submit e da CLI

Um tutorial que ajuda a executar um aplicativo Spark no serviço Data Flow com o script spark-submit ao usar a string execute na CLI.

Siga o tutorial existente para Conceitos Básicos do Oracle Cloud Infrastructure Data Flow, mas use a CLI para executar comandos spark-submit.

Antes de Começar

Conclua alguns pré-requisitos e configure a autenticação para que você possa usar comandos spark-submit no Data Flow com a CLI.

Cumpra os pré-requisitos para usar o script spark-submit com a CLI.
Configure a autenticação para usar o script spark-submit com a CLI.

Pré-requisitos para Usar o Script Spark-submit com a CLI

Cumpra esses pré-requisitos para usar o script spark-submit com a CLI.

Autenticação para Usar o Script Spark-submit com a CLI

Configure a autenticação para usar o script spark-submit com a CLI.

Quando os pré-requisitos para usar o spark-submit com a CLI forem concluídos e a CLI estiver instalada, configure o perfil com os seguintes comandos:

 $ oci session authenticate
 
    - select the intended region from the provided list of regions.
    - Please switch to newly opened browser window to log in!
    - Completed browser authentication process!
    - Enter the name of the profile you would like to create: <profile_name> ex. oci-cli
    - Config written to: ~/.oci/config
 
    - Try out your newly created session credentials with the following example command:
             $ oci iam region list --config-file ~/.oci/config --profile <profile_name> --auth security_token

Um perfil é criado em seu arquivo ~/.oci/config. Use o nome do perfil para executar o tutorial.

1. Criar o Aplicativo Java Usando o Script Spark-Submit e a CLI

Use o script Spark-submit e a CLI para concluir tutoriais.

Use o script spark-submit e a CLI para concluir o primeiro exercício, ETL com Java, no tutorial Conceitos Básicos do Oracle Cloud Infrastructure Data Flow.

Configurar sua tenancy.
Se você não tiver um bucket no serviço Object Storage, no qual possa salvar sua entrada e seus resultados, crie um bucket com uma estrutura de pasta adequada. Neste exemplo, a estrutura da pasta é /output/tutorial1.

Execute este código:

oci --profile <profile-name> --auth security_token data-flow run submit \
--compartment-id <compartment-id> \
--display-name Tutorial_1_ETL_Java \
--execute '
    --class convert.Convert 
    --files oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/kaggle_berlin_airbnb_listings_summary.csv 
    oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow-lab-2019-java-etl-1.0-SNAPSHOT.jar \
    kaggle_berlin_airbnb_listings_summary.csv oci://<bucket-name>@<namespace-name>/output/tutorial1'

Se você tiver executado este tutorial antes, exclua o conteúdo do diretório de saída, oci://<bucket-name>@<namespace-name>/output/tutorial1, para evitar que o tutorial falhe.

Observação

Para localizar o id do compartimento, no menu de navegação, selecione Identidade e Compartimentos. Os compartimentos disponíveis para você estão listados, incluindo o OCID de cada um.

2: Aprendizado de Máquina com o PySpark

Use o script Spark-submit e a CLI para realizar machine learning com PySpark,

Execute o exercício 3. Aprendizado de Máquina com PySpark, no tutorial Conceitos Básicos sobre o Oracle Cloud Infrastructure Data Flow.

Antes de tentar este exercício, conclua 1. Criar o Aplicativo Java Usando o Script Spark-Submit e a CLI. Os resultados são usados neste exercício.

Execute o seguinte código:

oci --profile <profile-name> --auth security_token data-flow run submit \
--compartment-id <compartment-id> \
--display-name Tutorial_3_PySpark_ML \
--execute '
    oci://oow_2019_dataflow_lab@idehhejtnbtc/oow_2019_dataflow_lab/usercontent/oow_lab_2019_pyspark_ml.py 
    oci://<your_bucket>@<namespace-name>/output/tutorial1'

O Que Vem a Seguir

Use o script Spark-submit e a CLI em outras situações.

Você pode usar o script spark-submit da CLI para criar e executar aplicativos Java, Python ou SQL com o serviço Data Flow e explorar os resultados. O serviço Data Flow trata de todos os detalhes de implantação, shutdown, gerenciamento de logs, segurança e acesso à interface do usuário. Com o serviço Data Flow, você se concentra no desenvolvimento de aplicativos Spark sem se preocupar com a infraestrutura.