Propiedades de Spark soportadas en Data Flow
Para cada ejecución de una aplicación de Data Flow, puede agregar propiedades de Spark en el campo Propiedades de configuración de Spark.
Cuando se esté ejecutando en Data Flow, no cambie el valor de
spark.master
. Si lo hace, el trabajo no utiliza todos los recursos aprovisionados. Lista de configuración de Spark propiedad de Data Flow
Configuraciones de Spark propiedad de Data Flow y cómo utilizarlas.
Configuración de Spark | Descripción de Uso | Versiones de Spark aplicables |
---|---|---|
dataflow.auth | Al definir el valor de configuración en 'resource_principal', se activa la autenticación de entidad de recurso para la ejecución de Data Flow. Esta configuración es necesaria para ejecuciones que están destinadas a ejecutarse durante más de 24 horas. Antes de activar la entidad de recurso, configure la policy adecuada. | Todas |
spark.dataflow.acquireQuotaTimeout | Data Flow le ofrece la opción de enviar trabajos cuando no tiene suficientes recursos para ejecutarlos. Los trabajos se mantienen en una cola interna y se liberan cuando los recursos están disponibles. Data Flow sigue comprobando hasta que finaliza el valor de timeout definido. Defina la propiedad spark.dataflow.acquireQuotaTimeout para especificar este valor de timeout. Defina la propiedad en Opciones avanzadas al crear una aplicación o al ejecutar una aplicación. Por ejemplo:
Utilice h para representar las horas de timeout y m o min para representar los minutos de timeout.
Nota: Si no se define |
Todas |
spark.archives#conda | La configuración spark.archives ofrece exactamente las mismas funcionalidades que su equivalente de código abierto. Al utilizar Conda como gestor de paquetes para ejecutar trabajos PySpark en OCI Data Flow, asocie #conda a las entradas del paquete de artefactos para que Data Flow extraiga los artefactos en un directorio adecuado.
Para obtener más información, consulte Integrating Conda Pack with Data Flow). |
3.2.1 o posterior |
spark.dataflow.streaming.restartPolicy.restartPeriod | Nota: Aplicable al tipo Flujo de datos solo se ejecuta. Esta propiedad especifica un retraso mínimo entre reinicios para una aplicación de Streaming. El valor por defecto se define en 3 minutos para evitar problemas transitorios que provocan muchos reinicios en un período de tiempo específico. |
3.0.2, 3.2.1 o posterior |
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures | Nota: Aplicable al tipo Flujo de datos solo se ejecuta. Esta propiedad especifica el número máximo de fallos consecutivos que se pueden producir antes de que Data Flow deje de reiniciar una aplicación Streaming con fallos. El valor por defecto es 10 . |
3.0.2, 3.2.1 o posterior |
spark.sql.streaming.graceful.shutdown.timeout | Nota: Aplicable al tipo Flujo de datos solo se ejecuta. Las ejecuciones de flujo de datos utilizan la duración del cierre para conservar los datos de punto de control para reiniciar correctamente desde el estado anterior. La configuración especifica el tiempo máximo que las ejecuciones de flujo de datos de flujo pueden utilizar para conservar de forma controlada el estado del punto de control antes de que se fuerce el cierre. El valor por defecto es 30 minutos. |
3.0.2, 3.2.1 o posterior |
spark.oracle.datasource.enabled | El origen de datos Oracle de Spark es una extensión del origen de datos JDBC de Spark. Simplifica la conexión a bases de datos Oracle desde Spark. Además de todas las opciones proporcionadas por el origen de datos JDBC de Spark, el origen de datos Oracle de Spark simplifica la conexión de bases de datos Oracle desde Spark proporcionando:
Para obtener más información, consulte Origen de datos de Oracle de Spark. |
3.0.2 o posterior |
spark.scheduler.minRegisteredResourcesRatio |
Valor por Defecto: 1.0 Nota: Se especifica como un doble entre 0,0 y 1,0. Ratio mínimo de recursos registrados por total de recursos esperados para esperar antes de programar una ejecución en la capa de trabajo. Ajustar este parámetro implica una compensación entre un inicio de trabajo más rápido y garantizar una disponibilidad de recursos adecuada. Por ejemplo, un valor de 0,8 significa el 80% de los recursos esperados. |
Todas |
spark.dataflow.overAllocationRatio |
Valor por Defecto: 1.0 Nota: Se especifica como un doble mayor o igual que 1.0. Ratio de creación excesiva de recursos para evitar fallos de trabajo como resultado del fallo al crear una parte secundaria de las instancias. La creación de instancias adicionales solo se factura durante la fase de creación y finaliza cuando se inicia el trabajo. Por ejemplo, un valor de 1,1 significa que se crearon un 10 % más de recursos para acomodar los recursos esperados para los trabajos de los clientes. |
Todas |