Propiedades de Spark soportadas en Data Flow

Para cada ejecución de una aplicación de Data Flow, puede agregar propiedades de Spark en el campo Propiedades de configuración de Spark.

Para obtener más información sobre ellas, consulte la Guía de configuración de Spark.
Importante

Cuando se esté ejecutando en Data Flow, no cambie el valor de spark.master. Si lo hace, el trabajo no utiliza todos los recursos aprovisionados.

Lista de configuración de Spark propiedad de Data Flow

Configuraciones de Spark propiedad de Data Flow y cómo utilizarlas.

Lista de configuración de Spark de Data Flow
Configuración de Spark Descripción de Uso Versiones de Spark aplicables
dataflow.auth Al definir el valor de configuración en 'resource_principal', se activa la autenticación de entidad de recurso para la ejecución de Data Flow. Esta configuración es necesaria para ejecuciones que están destinadas a ejecutarse durante más de 24 horas. Antes de activar la entidad de recurso, configure la policy adecuada. Todas
spark.dataflow.acquireQuotaTimeout Data Flow le ofrece la opción de enviar trabajos cuando no tiene suficientes recursos para ejecutarlos. Los trabajos se mantienen en una cola interna y se liberan cuando los recursos están disponibles. Data Flow sigue comprobando hasta que finaliza el valor de timeout definido. Defina la propiedad spark.dataflow.acquireQuotaTimeout para especificar este valor de timeout. Defina la propiedad en Opciones avanzadas al crear una aplicación o al ejecutar una aplicación. Por ejemplo:
spark.dataflow.acquireQuotaTimeout = 1h
spark.dataflow.acquireQuotaTimeout = 30m
spark.dataflow.acquireQuotaTimeout = 45min
Utilice h para representar las horas de timeout y m o min para representar los minutos de timeout.

Nota: Si no se define spark.dataflow.acquireQuotaTimeout, solo se acepta una ejecución si los recursos necesarios están disponibles.

Todas
spark.archives#conda La configuración spark.archives ofrece exactamente las mismas funcionalidades que su equivalente de código abierto. Al utilizar Conda como gestor de paquetes para ejecutar trabajos PySpark en OCI Data Flow, asocie #conda a las entradas del paquete de artefactos para que Data Flow extraiga los artefactos en un directorio adecuado.
oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda
Para obtener más información, consulte Integrating Conda Pack with Data Flow).
3.2.1 o posterior
spark.dataflow.streaming.restartPolicy.restartPeriod

Nota: Aplicable al tipo Flujo de datos solo se ejecuta.

Esta propiedad especifica un retraso mínimo entre reinicios para una aplicación de Streaming. El valor por defecto se define en 3 minutos para evitar problemas transitorios que provocan muchos reinicios en un período de tiempo específico.

3.0.2, 3.2.1 o posterior
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures

Nota: Aplicable al tipo Flujo de datos solo se ejecuta.

Esta propiedad especifica el número máximo de fallos consecutivos que se pueden producir antes de que Data Flow deje de reiniciar una aplicación Streaming con fallos. El valor por defecto es 10 .

3.0.2, 3.2.1 o posterior
spark.sql.streaming.graceful.shutdown.timeout

Nota: Aplicable al tipo Flujo de datos solo se ejecuta.

Las ejecuciones de flujo de datos utilizan la duración del cierre para conservar los datos de punto de control para reiniciar correctamente desde el estado anterior. La configuración especifica el tiempo máximo que las ejecuciones de flujo de datos de flujo pueden utilizar para conservar de forma controlada el estado del punto de control antes de que se fuerce el cierre. El valor por defecto es 30 minutos.

3.0.2, 3.2.1 o posterior
spark.oracle.datasource.enabled

El origen de datos Oracle de Spark es una extensión del origen de datos JDBC de Spark. Simplifica la conexión a bases de datos Oracle desde Spark. Además de todas las opciones proporcionadas por el origen de datos JDBC de Spark, el origen de datos Oracle de Spark simplifica la conexión de bases de datos Oracle desde Spark proporcionando:

  • Una cartera de descarga automática desde la base de datos autónoma, lo que significa que no es necesario descargar la cartera y mantenerla en Object Storage o Vault.
  • Distribución automática del grupo de carteras de Object Storage al controlador y al ejecutor sin ningún código personalizado de los usuarios.
  • Archivos JAR del controlador JDBC, por lo que se elimina la necesidad de descargarlos e incluirlos en el archivo archive.zip. El controlador JDBC es de la versión 21.3.0.0.
Para activar el origen de datos de Oracle de Spark, defina la configuración, spark.oracle.datasource.enabled, en un valor true:
spark.oracle.datasource.enabled = true
Para obtener más información, consulte Origen de datos de Oracle de Spark.
3.0.2 o posterior
spark.scheduler.minRegisteredResourcesRatio

Valor por Defecto: 1.0

Nota: Se especifica como un doble entre 0,0 y 1,0.

Ratio mínimo de recursos registrados por total de recursos esperados para esperar antes de programar una ejecución en la capa de trabajo. Ajustar este parámetro implica una compensación entre un inicio de trabajo más rápido y garantizar una disponibilidad de recursos adecuada.

Por ejemplo, un valor de 0,8 significa el 80% de los recursos esperados.

Todas
spark.dataflow.overAllocationRatio

Valor por Defecto: 1.0

Nota: Se especifica como un doble mayor o igual que 1.0.

Ratio de creación excesiva de recursos para evitar fallos de trabajo como resultado del fallo al crear una parte secundaria de las instancias. La creación de instancias adicionales solo se factura durante la fase de creación y finaliza cuando se inicia el trabajo.

Por ejemplo, un valor de 1,1 significa que se crearon un 10 % más de recursos para acomodar los recursos esperados para los trabajos de los clientes.

Todas