Migrar Serviço Data Flow para o Spark 3.2.1

Siga estas etapas para migrar o serviço Data Flow para usar o Spark 3.2.1.

Para usar o Data Flow com o Delta Lakes 1.2.1 e integrar com o Conda Pack, use pelo menos a versão 3.2.1. do Spark com o Data Flow.

Siga as instruções no Spark 3.2.1 Migration Guide para fazer upgrade para o Spark 3.2.1.

Além das informações de versões suportadas em Antes de Iniciar o Serviço Data Flow, as seguintes versões de biblioteca incluem versões mínimas e somente suportadas pelo serviço Data Flow com o Spark 3.2.1 e com o Spark 3.0.2.
Observação

Crie aplicativos usando as versões listadas para o Spark 3.0.2 antes de migrar para o Spark 3.2.1.
Versões suportadas para o Spark 3.2.1 e Spark 3.0.2.
Biblioteca Spark 3.2.1 Spark 3.0.2
Python 3.8.13 3.6.8
Java 11 1.8.0_321
Hadoop (versão mínima) 3.3.1 3.2.0
Scala 2.12.15 2.12.10
oci-hdfs (versão mínima) 3.3.1.0.3.2 3.2.1.3
oci-java-sdk (versão mínima) 2.45 1.25.2
Observação

Para maximizar o desempenho com o Spark 3.2.1, consulte Definições de Desempenho do Spark 3.2.1.

Definições de Desempenho do Spark 3.2.1

Se estiver usando o Spark 3.2.1, defina dois parâmetros para maximizar o desempenho.

Por padrão, o Java SDK do Oracle Cloud Infrastructure usa o ApacheConnector. Isso pode causar buffer de solicitações na memória; em vez disso, use o Jersey HttpurlConnector definindo os seguintes parâmetros:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true