Propriedades do Spark com Suporte no Serviço Data Flow

Para cada execução de um aplicativo do serviço Data Flow, você pode adicionar Propriedades do Spark no campo Propriedades de Configuração do Spark.

Para obter mais informações sobre isso, consulte o Spark Configuration Guide.
Importante

Quando você estiver executando no serviço Data Flow, não altere o valor de spark.master. Se você fizer isso, o job não usará todos os recursos provisionados.

Lista de Configuração do Spark Proprietária do Serviço Data Flow

Configurações do Spark proprietárias do serviço Data Flow e como usá-las.

Lista de configuração do Spark do serviço Data Flow
Configuração do Spark Descrição de Uso Versões Aplicáveis do Spark
dataflow.auth A definição do valor de configuração como 'resource_principal' permite a autenticação do controlador de recursos para a execução do serviço Data Flow. Esta configuração é necessária para execuções destinadas a serem executadas por mais de 24 horas. Antes de ativar o controlador de recursos, configure a política apropriada. Todas
spark.dataflow.acquireQuotaTimeout O serviço Data Flow oferece a opção de enviar jobs quando você não tem recursos suficientes para executá-los. As tarefas são mantidas em uma fila interna e são liberadas quando os recursos ficam disponíveis. O serviço Data Flow continua verificando até que o valor de timeout definido seja finalizado. Defina a propriedade spark.dataflow.acquireQuotaTimeout para especificar esse valor de timeout. Defina a propriedade em Opções avançadas ao criar um aplicativo ou ao executar um aplicativo. Por exemplo:
spark.dataflow.acquireQuotaTimeout = 1h
spark.dataflow.acquireQuotaTimeout = 30m
spark.dataflow.acquireQuotaTimeout = 45min
Use h para representar as horas de timeout e m ou min para representar os minutos de timeout.

Observação: Se spark.dataflow.acquireQuotaTimeout não estiver definido, uma execução só será aceita se os recursos necessários estiverem disponíveis.

Todas
spark.archives#conda A configuração spark.archives serve exatamente as mesmas funcionalidades que sua contraparte de código aberto. Ao usar o Conda como gerenciador de pacotes para enviar jobs PySpark no OCI Data Flow, anexe #conda às entradas do pacote de artefatos para que o Data Flow extraia os artefatos em um diretório adequado.
oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda
Para obter mais informações, consulte Integrando o Pacote Conda com o Serviço Data Flow).
3.2.1 ou superior
spark.dataflow.streaming.restartPolicy.restartPeriod

Observação: Aplicável apenas a execuções do tipo Fluxo de Dados.

Esta propriedade especifica um atraso mínimo entre reinicializações de um aplicativo Streaming. O valor padrão para ele é definido como 3 minutos para evitar problemas transitórios que causem muitas reinicializações em um período específico.

3.0.2, 3.2.1 ou superior
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures

Observação: Aplicável apenas a execuções do tipo Fluxo de Dados.

Essa propriedade especifica o número máximo de falhas consecutivas que podem ocorrer antes que o serviço Data Flow interrompa a reinicialização de um aplicativo Streaming com falha. O valor default é 10.

3.0.2, 3.2.1 ou superior
spark.sql.streaming.graceful.shutdown.timeout

Observação: Aplicável apenas a execuções do tipo Fluxo de Dados.

As execuções de streaming do serviço Data Flow usam a duração do shutdown para preservar os dados do checkpoint para reiniciar corretamente do estado anterior. A configuração especifica o tempo máximo que as execuções de streaming do serviço Data Flow podem usar para preservar normalmente o estado do checkpoint antes de serem forçadas a fazer shutdown. O default é 30 minutos.

3.0.2, 3.2.1 ou superior
spark.oracle.datasource.enabled

A Origem de Dados Oracle do Spark é uma extensão da origem de dados JDBC do Spark. Ela simplifica a conexão com bancos de dados Oracle do Spark. Além de todas as opções fornecidas pela origem de dados JDBC do Spark, a Origem de Dados Oracle do Spark Datasource simplifica a conexão de bancos de dados Oracle do Spark fornecendo:

  • Uma wallet de download automático do banco de dados autônomo, o que significa que não há necessidade de download da wallet e mantê-la no Object Storage ou no Vault.
  • Distribuição automática do pacote da wallet do serviço Object Storage para o driver e o executor sem nenhum código personalizado dos usuários.
  • Arquivos JAR do driver JDBC, eliminando a necessidade de fazer download deles e incluí-los no arquivo archive.zip. O driver JDBC é a versão 21.3.0.0.
Para ativar a Origem de Dados Oracle do Spark, defina a configuração, spark.oracle.datasource.enabled, como um valor verdadeiro:
spark.oracle.datasource.enabled = true
Para obter mais informações, consulte Origem de Dados Oracle do Spark.
3.0.2 ou superior
spark.scheduler.minRegisteredResourcesRatio

Padrão: 1.0

Observação: Especificado como um double entre 0.0 e 1.0.

A proporção mínima de recursos registrados por total de recursos esperados para aguardar antes de programar uma execução na camada do Job. Ajustar esse parâmetro envolve uma troca entre uma inicialização de trabalho mais rápida e garantir a disponibilidade adequada de recursos.

Por exemplo, um valor de 0,8 significa 80% dos recursos esperados.

Todas
spark.dataflow.overAllocationRatio

Padrão: 1.0

Observação: Especificado como um dobro maior ou igual a 1,0.

A proporção de criação excessiva de recursos para evitar falha de job resultante da falha na criação de uma parte secundária das instâncias. A criação de instância extra é cobrada somente durante a fase de criação e encerrada após o início do job.

Por exemplo, um valor de 1,1 significa que foram criados 10% mais recursos para acomodar os recursos esperados para os trabalhos dos clientes.

Todas