Migración de Data Flow a Spark 3.2.1

Siga estos pasos para migrar Data Flow para que utilice Spark 3.2.1.

Para utilizar Data Flow con Delta Lakes 1.2.1 y realizar la integración con Conda Pack, debe utilizar al menos la versión 3.2.1 de Spark con Data Flow.

Siga las instrucciones de la guía Spark 3.2.1 Migration Guide para cambiar la versión a Spark 3.2.1.

Además de la información sobre la versiones soportadas en Antes que empiece a usar Data Flow, las siguientes versiones son las versiones mínimas soportadas por Data Flow con Spark 3.2.1 y con Spark 3.0.2.
Nota

Cree aplicaciones con las versiones mostradas para Spark 3.0.2 antes de migrar a Spark 3.2.1.
Versiones soportadas para Spark 3.2.1 y Spark 3.0.2.
Biblioteca Spark 3.2.1 Spark 3.0.2
Python 3.8.13 3.6.8
Java 11 1.8.0_321
Hadoop (versión mínima) 3.3.1 3.2.0
Scala 2.12.15 2.12.10
oci-hdfs (versión mínima) 3.3.1.0.3.2 3.2.1.3
oci-java-sdk (versión mínima) 2,45 1.25.2
Nota

Para maximizar el rendimiento con Spark 3.2.1, consulte Configuración del rendimiento para Spark 3.2.1.

Configuración del rendimiento para Spark 3.2.1

Si utiliza Spark 3.2.1, defina dos parámetros para maximizar el rendimiento.

Por defecto, el SDK de Java de Oracle Cloud Infrastructure utiliza ApacheConnector. Esto puede provocar el almacenamiento en buffer de las solicitudes en la memoria, por lo que, en su lugar, utilice HttpurlConnector de Jersey definiendo los siguientes parámetros:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true