Criando um Aplicativo Spark-Submit no Serviço Data Flow

Crie um Aplicativo Spark-Submit no serviço Data Flow.

  • Faça upload dos arquivos Spark-submit para um Oracle Cloud Infrastructure Object Storage. Consulte Configurar Armazenamento de Objetos para obter detalhes.
    1. Na página Fluxo de Dados, no menu esquerdo, selecione Aplicativos. Se precisar de ajuda para localizar a página Fluxo de Dados, consulte Listando Aplicativos.
    2. Na página Aplicativos, selecione Criar aplicativo.
    3. No painel Criar aplicativo, informe um nome para o aplicativo e uma descrição opcional que possa ajudá-lo a procurá-lo.
    4. Em Configuração do recurso, forneça os valores a seguir. Para ajudar a calcular o número de recursos necessários, consulte Dimensionando o Aplicativo do Serviço Data Flow.
      1. Selecione a versão do Spark.
      2. (Opcional) Selecione um pool.
      3. Para Forma do driver, selecione o tipo de nó do cluster a ser usado para hospedar o driver Spark.
      4. (Opcional) Se você tiver selecionado uma forma flexível para o driver, personalize o número de OCPUs e a quantidade de memória.
      5. Para Forma do executor, selecione o tipo de nó do cluster a ser usado para hospedar cada executor do Spark.
      6. (Opcional) Se você tiver selecionado uma forma flexível para o executor, personalize o número de OCPUs e a quantidade de memória.
      7. (Opcional) Para ativar o uso de alocação dinâmica do Spark (dimensionamento automático), selecione Ativar dimensionamento automático.
      8. Digite o número de executores de que você precisa. Se você optou por usar o dimensionamento automático, informe um número mínimo e máximo de executores.
    5. Em Configuração do aplicativo, forneça os valores a seguir.
      1. (Opcional) Se o aplicativo for para Spark Streaming, selecione Spark Streaming.
      2. Selecione Usar Opções de Script Spark-Submit. As opções de script spark-submit suportadas são:
        • --py-files
        • --files
        • --jars
        • --class
        • --conf A propriedade de configuração do aribtary Spark no formato key=value. Se um valor contém espaços, coloque-o entre aspas, "key=value". Passe muitas configurações como argumentos separados, por exemplo,
           --conf <key1>=<value1> --conf <key2>=<value2>
        • application-jar O caminho para um JAR agrupado, incluindo seu aplicativo e todas as suas dependências.
        • application-arguments Os argumentos transmitidos para o método principal da sua classe principal.
      3. Na caixa de texto Opções Spark-Submit, informe as opções no formato:
         --py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip>
         --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json
         --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar
         --conf spark.sql.crossJoin.enabled=true
          oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
        Por exemplo, para usar a Origem de Dados Oracle do Spark, use a seguinte opção:
        --conf spark.oracle.datasource.enable=true
        Importante

        O serviço Data Flow não suporta URIs que começam em local:// ou hdfs://. O URI deve começar com oci://; portanto, todos os arquivos (incluindo main-application) devem estar no Oracle Cloud Infrastructure Object Storage, e você deve usar o nome de domínio totalmente qualificado (FQDN) para cada arquivo.
      4. (Opcional) Se você tiver um arquivo archive.zip, faça upload de archive.zip para o Oracle Cloud Infrastructure Object Storage e preencha o URI do Arquivo Compactado com o caminho para ele. Você pode criar planilhas de duas formas:
        • Selecione o arquivo na lista Nome do arquivo do Object Storage. Selecione Alterar compartimento se o bucket estiver em outro compartimento.
        • Selecione Informar o caminho do arquivo manualmente e informe o nome do arquivo e o caminho para ele usando este formato:
           oci://<bucket_name>@<namespace_name>/<file_name>
      5. Em Localização de log do aplicativo, especifique onde você deseja ingerir o Oracle Cloud Infrastructure Logging de uma das seguintes maneiras:
        • Selecione o bucket dataflow-logs na lista Nome do arquivo do Object Storage. Selecione Alterar compartimento se o bucket estiver em outro compartimento.
        • Selecione Informar o caminho do bucket manualmente e informe o caminho do bucket para ele usando este formato:
           oci://dataflow-logs@<namespace_name>
        • Não selecione Informar o caminho do bucket manualmente e selecione o arquivo.
      6. (Opcional) Selecione o Metastore na lista. Se o metastore estiver em um compartimento distinto, selecione primeiro Alterar compartimento e selecione outro compartimento. Em seguida, selecione Metastore na lista. O local da tabela gerenciada padrão é preenchido automaticamente com base no seu metastore.
    6. (Opcional) Na seção Tags , adicione uma ou mais tags ao <resourceType>. Se você tiver permissões para criar um recurso, também terá permissões para aplicar tags de formato livre a esse recurso. Para aplicar uma tag definida, você deverá ter permissões para usar o namespace da tag. Para obter mais informações sobre tags, consulte Tags de Recursos. Se você não tiver certeza se deseja aplicar tags, ignore esta opção ou pergunte a um administrador. Você pode aplicar tags posteriormente.
    7. (Opcional) Selecione Mostrar opções avançadas e forneça os valores a seguir.
      1. (Opcional) Selecione Usar autenticação do controlador de recursos para permitir um início mais rápido ou se você espera que a Execução dure mais de 24 horas. Você deve ter Políticas do Controlador de Recursos configuradas.
      2. Marque Ativar Delta Lake para usar o Delta Lake.
        1. Selecione a versão do Delta Lake. O valor selecionado é refletido no par Chave/Valor das propriedades de configuração do Spark.
        2. Selecione o grupo de logs.
      3. (Opcional) Selecione Ativar origem de dados Oracle do Spark para usar a Origem de Dados Oracle do Spark.
      4. (Opcional) Na seção Logs, selecione os grupos de logs e os logs de aplicativo do Oracle Cloud Infrastructure Logging. Se os grupos de logs estiverem em outro compartimento, selecione Alterar compartimento.
      5. Adicionar Propriedades de Configuração do Spark. Informe um par de Chave e Valor.
      6. Selecione + Outra propriedade para adicionar outra propriedade de configuração.
      7. Repita as etapas b e c até ter adicionado todas as propriedades de configuração.
      8. Substitua o valor padrão para o bucket do warehouse preenchendo o URL do Bucket do Warehouse no formato:
        oci://<warehouse-name>@<tenancy>
      9. Para Escolher acesso à rede, selecione uma das seguintes opções:
        • Se você estiver Anexando um Ponto Final Privado ao serviço Data Flow, selecione o botão de opção Proteger o Acesso à Sub-rede Privada. Selecione o ponto final privado na lista resultante.
          Observação

          Você não pode usar um endereço IP para estabelecer conexão com o ponto final privado. Use o FQDN.
        • Se você não estiver usando um ponto final privado, selecione o botão de opção Acesso à Internet (Sem Sub-rede).
      10. (Opcional) Para ativar a coleta de linhagem de dados:
        1. Selecione Ativar coleta de linhagem de dados.
        2. Selecione Informar catálogo de dados manualmente ou selecione uma instância do serviço Data Catalog em um compartimento configurável na tenancy atual.
        3. (Opcional) Se você tiver selecionado Informar catálogo de dados manualmente na etapa anterior, informe os valores para OCID da tenancy do catálogo de dados, OCID do compartimento do catálogo de dados e ODID da instância do serviço Data Catalog.
      11. (Opcional) Somente para tarefas em batch, para Duração máxima de execução em minutos, informe um valor entre 60 (1 hora) e 10080 (7 dias). Se você não informar um valor, a execução enviada continuará até que seja bem-sucedida, falhe, seja cancelada ou atinja sua duração máxima padrão (24 horas).
    8. Selecione Criar para criar o Aplicativo ou selecione Salvar como pilha para criá-lo posteriormente.
      Para alterar os valores de Nome e URL do Arquivo no futuro, consulte Editando um Aplicativo.
  • Use o comando create e os parâmetros necessários para criar um aplicativo:

    oci data-flow application create [OPTIONS]
    Para obter uma lista completa de flags e opções de variáveis para comandos da CLI, consulte a Referência de Comando da CLI.
  • Execute a operação CreateApplication para criar um aplicativo.