Migración de Data Flow a Spark 3.2.1
Siga estos pasos para migrar Data Flow para que utilice Spark 3.2.1.
Para utilizar Data Flow con Delta Lakes 1.2.1 y realizar la integración con Conda Pack, debe utilizar al menos la versión 3.2.1 de Spark con Data Flow.
Siga las instrucciones de la guía Spark 3.2.1 Migration Guide para cambiar la versión a Spark 3.2.1.
Además de la información sobre la versiones soportadas en Antes que empiece a usar Data Flow, las siguientes versiones son las versiones mínimas soportadas por Data Flow con Spark 3.2.1 y con Spark 3.0.2.
Nota
Cree aplicaciones con las versiones mostradas para Spark 3.0.2 antes de migrar a Spark 3.2.1.
Cree aplicaciones con las versiones mostradas para Spark 3.0.2 antes de migrar a Spark 3.2.1.
| Biblioteca | Spark 3.2.1 | Spark 3.0.2 |
|---|---|---|
| Python | 3.8.13 | 3.6.8 |
| Java | 11 | 1.8.0_321 |
| Hadoop (versión mínima) | 3.3.1 | 3.2.0 |
| Scala | 2.12.15 | 2.12.10 |
| oci-hdfs (versión mínima) | 3.3.1.0.3.2 | 3.2.1.3 |
| oci-java-sdk (versión mínima) | 2,45 | 1.25.2 |
Nota
Para maximizar el rendimiento con Spark 3.2.1, consulte Configuración del rendimiento para Spark 3.2.1.
Para maximizar el rendimiento con Spark 3.2.1, consulte Configuración del rendimiento para Spark 3.2.1.
Configuración del rendimiento para Spark 3.2.1
Si utiliza Spark 3.2.1, defina dos parámetros para maximizar el rendimiento.
Por defecto, el SDK de Java de Oracle Cloud Infrastructure utiliza ApacheConnector. Esto puede provocar el almacenamiento en buffer de las solicitudes en la memoria, por lo que, en su lugar, utilice HttpurlConnector de Jersey definiendo los siguientes parámetros:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true