Criando um Aplicativo Spark-Submit no Serviço Data Flow
Crie um Aplicativo Spark-Submit no serviço Data Flow.
Faça upload dos arquivos Spark-submit para um Oracle Cloud Infrastructure Object Storage. Consulte Configurar Armazenamento de Objetos para obter detalhes. - Na página Fluxo de Dados, no menu esquerdo, selecione Aplicativos. Se precisar de ajuda para localizar a página Fluxo de Dados, consulte Listando Aplicativos.
- Na página Aplicativos, selecione Criar aplicativo.
- No painel Criar aplicativo, informe um nome para o aplicativo e uma descrição opcional que possa ajudá-lo a procurá-lo.
-
Em Configuração do recurso, forneça os valores a seguir. Para ajudar a calcular o número de recursos necessários, consulte Dimensionando o Aplicativo do Serviço Data Flow.
- Selecione a versão do Spark.
- (Opcional) Selecione um pool.
- Para Forma do driver, selecione o tipo de nó do cluster a ser usado para hospedar o driver Spark.
- (Opcional) Se você tiver selecionado uma forma flexível para o driver, personalize o número de OCPUs e a quantidade de memória.
- Para Forma do executor, selecione o tipo de nó do cluster a ser usado para hospedar cada executor do Spark.
- (Opcional) Se você tiver selecionado uma forma flexível para o executor, personalize o número de OCPUs e a quantidade de memória.
- (Opcional) Para ativar o uso de alocação dinâmica do Spark (dimensionamento automático), selecione Ativar dimensionamento automático.
- Digite o número de executores de que você precisa. Se você optou por usar o dimensionamento automático, informe um número mínimo e máximo de executores.
-
Em Configuração do aplicativo, forneça os valores a seguir.
- (Opcional) Se o aplicativo for para Spark Streaming, selecione Spark Streaming.
- Selecione Usar Opções de Script Spark-Submit. As opções de script spark-submit suportadas são:
--py-files
--files
--jars
--class
--conf
A propriedade de configuração do aribtary Spark no formatokey=value
. Se um valor contém espaços, coloque-o entre aspas,"key=value"
. Passe muitas configurações como argumentos separados, por exemplo,--conf <key1>=<value1> --conf <key2>=<value2>
application-jar
O caminho para um JAR agrupado, incluindo seu aplicativo e todas as suas dependências.application-arguments
Os argumentos transmitidos para o método principal da sua classe principal.
- Na caixa de texto Opções Spark-Submit, informe as opções no formato:
Por exemplo, para usar a Origem de Dados Oracle do Spark, use a seguinte opção:
--py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip> --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar --conf spark.sql.crossJoin.enabled=true oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
--conf spark.oracle.datasource.enable=true
Importante
O serviço Data Flow não suporta URIs que começam emlocal://
ouhdfs://
. O URI deve começar comoci://
; portanto, todos os arquivos (incluindomain-application
) devem estar no Oracle Cloud Infrastructure Object Storage, e você deve usar o nome de domínio totalmente qualificado (FQDN) para cada arquivo. - (Opcional) Se você tiver um arquivo
archive.zip
, faça upload dearchive.zip
para o Oracle Cloud Infrastructure Object Storage e preencha o URI do Arquivo Compactado com o caminho para ele. Você pode criar planilhas de duas formas:- Selecione o arquivo na lista Nome do arquivo do Object Storage. Selecione Alterar compartimento se o bucket estiver em outro compartimento.
- Selecione Informar o caminho do arquivo manualmente e informe o nome do arquivo e o caminho para ele usando este formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- Em Localização de log do aplicativo, especifique onde você deseja ingerir o Oracle Cloud Infrastructure Logging de uma das seguintes maneiras:
- Selecione o bucket
dataflow-logs
na lista Nome do arquivo do Object Storage. Selecione Alterar compartimento se o bucket estiver em outro compartimento. - Selecione Informar o caminho do bucket manualmente e informe o caminho do bucket para ele usando este formato:
oci://dataflow-logs@<namespace_name>
- Não selecione Informar o caminho do bucket manualmente e selecione o arquivo.
- Selecione o bucket
- (Opcional) Selecione o Metastore na lista. Se o metastore estiver em um compartimento distinto, selecione primeiro Alterar compartimento e selecione outro compartimento. Em seguida, selecione Metastore na lista. O local da tabela gerenciada padrão é preenchido automaticamente com base no seu metastore.
- (Opcional) Na seção Tags , adicione uma ou mais tags ao <resourceType>. Se você tiver permissões para criar um recurso, também terá permissões para aplicar tags de formato livre a esse recurso. Para aplicar uma tag definida, você deverá ter permissões para usar o namespace da tag. Para obter mais informações sobre tags, consulte Tags de Recursos. Se você não tiver certeza se deseja aplicar tags, ignore esta opção ou pergunte a um administrador. Você pode aplicar tags posteriormente.
- (Opcional) Selecione Mostrar opções avançadas e forneça os valores a seguir.
- (Opcional) Selecione Usar autenticação do controlador de recursos para permitir um início mais rápido ou se você espera que a Execução dure mais de 24 horas. Você deve ter Políticas do Controlador de Recursos configuradas.
- Marque Ativar Delta Lake para usar o Delta Lake.
- Selecione a versão do Delta Lake. O valor selecionado é refletido no par Chave/Valor das propriedades de configuração do Spark.
- Selecione o grupo de logs.
- (Opcional) Selecione Ativar origem de dados Oracle do Spark para usar a Origem de Dados Oracle do Spark.
- (Opcional) Na seção Logs, selecione os grupos de logs e os logs de aplicativo do Oracle Cloud Infrastructure Logging. Se os grupos de logs estiverem em outro compartimento, selecione Alterar compartimento.
- Adicionar Propriedades de Configuração do Spark. Informe um par de Chave e Valor.
- Selecione + Outra propriedade para adicionar outra propriedade de configuração.
- Repita as etapas b e c até ter adicionado todas as propriedades de configuração.
- Substitua o valor padrão para o bucket do warehouse preenchendo o URL do Bucket do Warehouse no formato:
oci://<warehouse-name>@<tenancy>
- Para Escolher acesso à rede, selecione uma das seguintes opções:
- Se você estiver Anexando um Ponto Final Privado ao serviço Data Flow, selecione o botão de opção Proteger o Acesso à Sub-rede Privada. Selecione o ponto final privado na lista resultante.
Observação
Você não pode usar um endereço IP para estabelecer conexão com o ponto final privado. Use o FQDN. - Se você não estiver usando um ponto final privado, selecione o botão de opção Acesso à Internet (Sem Sub-rede).
- Se você estiver Anexando um Ponto Final Privado ao serviço Data Flow, selecione o botão de opção Proteger o Acesso à Sub-rede Privada. Selecione o ponto final privado na lista resultante.
- (Opcional) Para ativar a coleta de linhagem de dados:
- Selecione Ativar coleta de linhagem de dados.
- Selecione Informar catálogo de dados manualmente ou selecione uma instância do serviço Data Catalog em um compartimento configurável na tenancy atual.
- (Opcional) Se você tiver selecionado Informar catálogo de dados manualmente na etapa anterior, informe os valores para OCID da tenancy do catálogo de dados, OCID do compartimento do catálogo de dados e ODID da instância do serviço Data Catalog.
- (Opcional) Somente para tarefas em batch, para Duração máxima de execução em minutos, informe um valor entre 60 (1 hora) e 10080 (7 dias). Se você não informar um valor, a execução enviada continuará até que seja bem-sucedida, falhe, seja cancelada ou atinja sua duração máxima padrão (24 horas).
-
Selecione Criar para criar o Aplicativo ou selecione Salvar como pilha para criá-lo posteriormente.
Para alterar os valores de Nome e URL do Arquivo no futuro, consulte Editando um Aplicativo.
Use o comando create e os parâmetros necessários para criar um aplicativo:
Para obter uma lista completa de flags e opções de variáveis para comandos da CLI, consulte a Referência de Comando da CLI.oci data-flow application create [OPTIONS]
Execute a operação CreateApplication para criar um aplicativo.