Migrar Serviço Data Flow para o Spark 3.2.1
Siga estas etapas para migrar o serviço Data Flow para usar o Spark 3.2.1.
Para usar o Data Flow com o Delta Lakes 1.2.1 e integrar com o Conda Pack, use pelo menos a versão 3.2.1. do Spark com o Data Flow.
Siga as instruções no Spark 3.2.1 Migration Guide para fazer upgrade para o Spark 3.2.1.
Além das informações de versões suportadas em Antes de Iniciar o Serviço Data Flow, as seguintes versões de biblioteca incluem versões mínimas e somente suportadas pelo serviço Data Flow com o Spark 3.2.1 e com o Spark 3.0.2.
Observação
Crie aplicativos usando as versões listadas para o Spark 3.0.2 antes de migrar para o Spark 3.2.1.
Crie aplicativos usando as versões listadas para o Spark 3.0.2 antes de migrar para o Spark 3.2.1.
Biblioteca | Spark 3.2.1 | Spark 3.0.2 |
---|---|---|
Python | 3.8.13 | 3.6.8 |
Java | 11 | 1.8.0_321 |
Hadoop (versão mínima) | 3.3.1 | 3.2.0 |
Scala | 2.12.15 | 2.12.10 |
oci-hdfs (versão mínima) | 3.3.1.0.3.2 | 3.2.1.3 |
oci-java-sdk (versão mínima) | 2.45 | 1.25.2 |
Observação
Para maximizar o desempenho com o Spark 3.2.1, consulte Definições de Desempenho do Spark 3.2.1.
Para maximizar o desempenho com o Spark 3.2.1, consulte Definições de Desempenho do Spark 3.2.1.
Definições de Desempenho do Spark 3.2.1
Se estiver usando o Spark 3.2.1, defina dois parâmetros para maximizar o desempenho.
Por padrão, o Java SDK do Oracle Cloud Infrastructure usa o ApacheConnector. Isso pode causar buffer de solicitações na memória; em vez disso, use o Jersey HttpurlConnector definindo os seguintes parâmetros:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true