Propriedades do Spark com Suporte no Serviço Data Flow
Para cada execução de um aplicativo do serviço Data Flow, você pode adicionar Propriedades do Spark no campo Propriedades de Configuração do Spark.
Quando você estiver executando no serviço Data Flow, não altere o valor de
spark.master
. Se você fizer isso, o job não usará todos os recursos provisionados. Lista de Configuração do Spark Proprietária do Serviço Data Flow
Configurações do Spark proprietárias do serviço Data Flow e como usá-las.
Configuração do Spark | Descrição de Uso | Versões Aplicáveis do Spark |
---|---|---|
dataflow.auth | A definição do valor de configuração como 'resource_principal' permite a autenticação do controlador de recursos para a execução do serviço Data Flow. Esta configuração é necessária para execuções destinadas a serem executadas por mais de 24 horas. Antes de ativar o controlador de recursos, configure a política apropriada. | Todas |
spark.dataflow.acquireQuotaTimeout | O serviço Data Flow oferece a opção de enviar jobs quando você não tem recursos suficientes para executá-los. As tarefas são mantidas em uma fila interna e são liberadas quando os recursos ficam disponíveis. O serviço Data Flow continua verificando até que o valor de timeout definido seja finalizado. Defina a propriedade spark.dataflow.acquireQuotaTimeout para especificar esse valor de timeout. Defina a propriedade em Opções avançadas ao criar um aplicativo ou ao executar um aplicativo. Por exemplo:
Use h para representar as horas de timeout e m ou min para representar os minutos de timeout.
Observação: Se |
Todas |
spark.archives#conda | A configuração spark.archives serve exatamente as mesmas funcionalidades que sua contraparte de código aberto. Ao usar o Conda como gerenciador de pacotes para enviar jobs PySpark no OCI Data Flow, anexe #conda às entradas do pacote de artefatos para que o Data Flow extraia os artefatos em um diretório adequado.
Para obter mais informações, consulte Integrando o Pacote Conda com o Serviço Data Flow). |
3.2.1 ou superior |
spark.dataflow.streaming.restartPolicy.restartPeriod | Observação: Aplicável apenas a execuções do tipo Fluxo de Dados. Esta propriedade especifica um atraso mínimo entre reinicializações de um aplicativo Streaming. O valor padrão para ele é definido como 3 minutos para evitar problemas transitórios que causem muitas reinicializações em um período específico. |
3.0.2, 3.2.1 ou superior |
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures | Observação: Aplicável apenas a execuções do tipo Fluxo de Dados. Essa propriedade especifica o número máximo de falhas consecutivas que podem ocorrer antes que o serviço Data Flow interrompa a reinicialização de um aplicativo Streaming com falha. O valor default é 10. |
3.0.2, 3.2.1 ou superior |
spark.sql.streaming.graceful.shutdown.timeout | Observação: Aplicável apenas a execuções do tipo Fluxo de Dados. As execuções de streaming do serviço Data Flow usam a duração do shutdown para preservar os dados do checkpoint para reiniciar corretamente do estado anterior. A configuração especifica o tempo máximo que as execuções de streaming do serviço Data Flow podem usar para preservar normalmente o estado do checkpoint antes de serem forçadas a fazer shutdown. O default é 30 minutos. |
3.0.2, 3.2.1 ou superior |
spark.oracle.datasource.enabled | A Origem de Dados Oracle do Spark é uma extensão da origem de dados JDBC do Spark. Ela simplifica a conexão com bancos de dados Oracle do Spark. Além de todas as opções fornecidas pela origem de dados JDBC do Spark, a Origem de Dados Oracle do Spark Datasource simplifica a conexão de bancos de dados Oracle do Spark fornecendo:
Para obter mais informações, consulte Origem de Dados Oracle do Spark. |
3.0.2 ou superior |
spark.scheduler.minRegisteredResourcesRatio |
Padrão: 1.0 Observação: Especificado como um double entre 0.0 e 1.0. A proporção mínima de recursos registrados por total de recursos esperados para aguardar antes de programar uma execução na camada do Job. Ajustar esse parâmetro envolve uma troca entre uma inicialização de trabalho mais rápida e garantir a disponibilidade adequada de recursos. Por exemplo, um valor de 0,8 significa 80% dos recursos esperados. |
Todas |
spark.dataflow.overAllocationRatio |
Padrão: 1.0 Observação: Especificado como um dobro maior ou igual a 1,0. A proporção de criação excessiva de recursos para evitar falha de job resultante da falha na criação de uma parte secundária das instâncias. A criação de instância extra é cobrada somente durante a fase de criação e encerrada após o início do job. Por exemplo, um valor de 1,1 significa que foram criados 10% mais recursos para acomodar os recursos esperados para os trabalhos dos clientes. |
Todas |