Migrar Serviço Data Flow para o Spark 3.2.1

Siga estas etapas para migrar o serviço Data Flow para usar o Spark 3.2.1.

Para usar o Data Flow com o Delta Lakes 1.2.1 e integrar com o Conda Pack, use pelo menos a versão 3.2.1. do Spark com o Data Flow.

Siga as instruções no Spark 3.2.1 Migration Guide para fazer upgrade para o Spark 3.2.1.

Além das informações de versões suportadas em Antes de Iniciar o Serviço Data Flow, as seguintes versões de biblioteca incluem versões mínimas e somente suportadas pelo serviço Data Flow com o Spark 3.2.1 e com o Spark 3.0.2.

Observação

Crie aplicativos usando as versões listadas para o Spark 3.0.2 antes de migrar para o Spark 3.2.1.

Versões suportadas para o Spark 3.2.1 e Spark 3.0.2.
Biblioteca	Spark 3.2.1	Spark 3.0.2
Python	3.8.13	3.6.8
Java	11	1.8.0_321
Hadoop (versão mínima)	3.3.1	3.2.0
Scala	2.12.15	2.12.10
oci-hdfs (versão mínima)	3.3.1.0.3.2	3.2.1.3
oci-java-sdk (versão mínima)	2.45	1.25.2

Observação

Para maximizar o desempenho com o Spark 3.2.1, consulte Definições de Desempenho do Spark 3.2.1.

Definições de Desempenho do Spark 3.2.1

Se estiver usando o Spark 3.2.1, defina dois parâmetros para maximizar o desempenho.

Por padrão, o Java SDK do Oracle Cloud Infrastructure usa o ApacheConnector. Isso pode causar buffer de solicitações na memória; em vez disso, use o Jersey HttpurlConnector definindo os seguintes parâmetros:

spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true

Documentação do Oracle Cloud Infrastructure

Migrar Serviço Data Flow para o Spark 3.2.1

Definições de Desempenho do Spark 3.2.1