Propriétés Spark prises en charge dans Data Flow

Pour chaque exécution d'une application Data Flow, vous pouvez ajouter des propriétés Spark dans le champ Propriétés de configuration Spark.

Pour plus d'informations, reportez-vous au guide de configuration Spark.
Important

Lorsque vous êtes en cours d'exécution dans Data Flow, ne modifiez pas la valeur de spark.master. Dans ce cas, le travail n'utilise pas toutes les ressources provisionnées.

Liste de configuration Spark propriétaire Data Flow

Configurations Spark propriétaires de Data Flow et utilisation de ces dernières.

Liste de configuration Spark Data Flow
Configuration de Spark Description de l'utilisation Versions Spark applicables
dataflow.auth La définition de la valeur de configuration sur 'resource_principal' active l'authentification du principal de ressource pour l'exécution Data Flow. Cette configuration est requise pour les exécutions de plus de 24 heures. Avant d'activer le principal de ressource, configurez la stratégie appropriée. Tout
spark.dataflow.acquireQuotaTimeout Data Flow vous permet de soumettre des travaux lorsque vous ne disposez pas de ressources suffisantes pour les exécuter. Les travaux sont conservés dans une file d'attente interne et sont libérés lorsque les ressources deviennent disponibles. Data Flow continue la vérification jusqu'à ce que la valeur de délai d'expiration que vous avez définie soit terminée. Vous définissez la propriété spark.dataflow.acquireQuotaTimeout pour indiquer cette valeur de délai d'expiration. Définissez la propriété sous Options avancées lors de la création d'une application ou lors de l'exécution d'une application. Par exemple :
spark.dataflow.acquireQuotaTimeout = 1h
spark.dataflow.acquireQuotaTimeout = 30m
spark.dataflow.acquireQuotaTimeout = 45min
Utilisez h pour représenter les heures d'expiration et m ou min pour représenter les minutes d'expiration.

Remarque : si spark.dataflow.acquireQuotaTimeout n'est pas défini, une exécution n'est acceptée que si les ressources requises sont disponibles.

Tout
spark.archives#conda La configuration spark.archives sert exactement les mêmes fonctionnalités que son équivalent open source. Lorsque vous utilisez Conda en tant que gestionnaire de packages pour soumettre des travaux PySpark dans OCI Data Flow, attachez #conda aux entrées de package d'artefacts afin que Data Flow extrait les artefacts dans un répertoire approprié.
oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda
Pour plus d'informations, reportez-vous à Intégration de Conda Pack à Data Flow).
3.2.1 ou ultérieure
spark.dataflow.streaming.restartPolicy.restartPeriod

Remarque : applicable aux exécutions de type Streaming Data Flow uniquement.

Cette propriété indique un délai minimal entre les redémarrages d'une application Streaming. La valeur par défaut est définie sur 3 minutes pour éviter les problèmes transitoires entraînant de nombreux redémarrages sur une période spécifique.

3.0.2, 3.2.1 ou ultérieure
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures

Remarque : applicable aux exécutions de type Streaming Data Flow uniquement.

Cette propriété indique le nombre maximal d'échecs consécutifs pouvant survenir avant que Data Flow cesse de redémarrer une application Streaming en échec. La valeur par défaut est 10.

3.0.2, 3.2.1 ou ultérieure
spark.sql.streaming.graceful.shutdown.timeout

Remarque : applicable aux exécutions de type Streaming Data Flow uniquement.

Les exécutions de transmission en continu Data Flow utilisent la durée d'arrêt pour conserver les données de point de reprise afin de les redémarrer correctement à partir de l'état précédent. La configuration indique la durée maximale pendant laquelle les exécutions de transmission en continu Data Flow peuvent être utilisées pour conserver progressivement l'état du point de reprise avant d'être forcées de s'arrêter. La valeur par défaut est de 30 minutes.

3.0.2, 3.2.1 ou ultérieure
spark.oracle.datasource.enabled

Une source de données Oracle Spark est une extension de la source de données JDBC de Spark. Elle simplifie la connexion aux bases de données Oracle à partir de Spark. Outre toutes les options fournies par la source de données JDBC de Spark, une source de données Oracle Spark simplifie la connexion aux bases de données Oracle à partir de Spark en incluant les éléments suivants :

  • Un portefeuille à téléchargement automatique de la base de données autonome, ce qui signifie qu'il n'est pas nécessaire de télécharger le portefeuille et de le conserver dans Object Storage ou Vault.
  • Distribution automatique du package de portefeuilles d'Object Storage au pilote et à l'exécuteur sans code personnalisé des utilisateurs.
  • Les fichiers JAR de pilote JDBC éliminent donc la nécessité de les télécharger et de les inclure dans le fichier archive.zip. Le pilote JDBC présente la version 21.3.0.0.
Pour activer la source de données Oracle Spark, définissez la configuration, spark.oracle.datasource.enabled, sur la valeur True :
spark.oracle.datasource.enabled = true
Pour plus d'informations, reportez-vous à Source de données Oracle Spark.
3.0.2 ou supérieure
spark.scheduler.minRegisteredResourcesRatio

Valeur par défaut : 1.0

Remarque : indiqué en tant que valeur double comprise entre 0,0 et 1,0.

Ratio minimal de ressources enregistrées par ressource totale attendue à attendre avant de planifier une exécution dans la couche Travail. L'ajustement de ce paramètre implique un compromis entre un démarrage plus rapide des tâches et une disponibilité adéquate des ressources.

Par exemple, une valeur de 0,8 signifie que 80 % des ressources ont attendu.

Tout
spark.dataflow.overAllocationRatio

Valeur par défaut : 1.0

Remarque : spécifié en tant que double supérieur ou égal à 1.0.

Ratio de création excessive de ressources pour éviter l'échec du travail résultant de l'échec de la création d'une partie mineure des instances. La création d'instance supplémentaire est facturée uniquement pendant la phase de création et se termine après le début du travail.

Par exemple, une valeur de 1,1 signifie que 10 % de ressources supplémentaires ont été créées pour s'adapter aux ressources attendues pour les emplois des clients.

Tout