Propriétés Spark prises en charge dans Data Flow
Pour chaque exécution d'une application Data Flow, vous pouvez ajouter des propriétés Spark dans le champ Propriétés de configuration Spark.
Lorsque vous êtes en cours d'exécution dans Data Flow, ne modifiez pas la valeur de
spark.master
. Dans ce cas, le travail n'utilise pas toutes les ressources provisionnées. Liste de configuration Spark propriétaire Data Flow
Configurations Spark propriétaires de Data Flow et utilisation de ces dernières.
Configuration de Spark | Description de l'utilisation | Versions Spark applicables |
---|---|---|
dataflow.auth | La définition de la valeur de configuration sur 'resource_principal' active l'authentification du principal de ressource pour l'exécution Data Flow. Cette configuration est requise pour les exécutions de plus de 24 heures. Avant d'activer le principal de ressource, configurez la stratégie appropriée. | Tout |
spark.dataflow.acquireQuotaTimeout | Data Flow vous permet de soumettre des travaux lorsque vous ne disposez pas de ressources suffisantes pour les exécuter. Les travaux sont conservés dans une file d'attente interne et sont libérés lorsque les ressources deviennent disponibles. Data Flow continue la vérification jusqu'à ce que la valeur de délai d'expiration que vous avez définie soit terminée. Vous définissez la propriété spark.dataflow.acquireQuotaTimeout pour indiquer cette valeur de délai d'expiration. Définissez la propriété sous Options avancées lors de la création d'une application ou lors de l'exécution d'une application. Par exemple :
Utilisez h pour représenter les heures d'expiration et m ou min pour représenter les minutes d'expiration.
Remarque : si |
Tout |
spark.archives#conda | La configuration spark.archives sert exactement les mêmes fonctionnalités que son équivalent open source. Lorsque vous utilisez Conda en tant que gestionnaire de packages pour soumettre des travaux PySpark dans OCI Data Flow, attachez #conda aux entrées de package d'artefacts afin que Data Flow extrait les artefacts dans un répertoire approprié.
Pour plus d'informations, reportez-vous à Intégration de Conda Pack à Data Flow). |
3.2.1 ou ultérieure |
spark.dataflow.streaming.restartPolicy.restartPeriod | Remarque : applicable aux exécutions de type Streaming Data Flow uniquement. Cette propriété indique un délai minimal entre les redémarrages d'une application Streaming. La valeur par défaut est définie sur 3 minutes pour éviter les problèmes transitoires entraînant de nombreux redémarrages sur une période spécifique. |
3.0.2, 3.2.1 ou ultérieure |
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures | Remarque : applicable aux exécutions de type Streaming Data Flow uniquement. Cette propriété indique le nombre maximal d'échecs consécutifs pouvant survenir avant que Data Flow cesse de redémarrer une application Streaming en échec. La valeur par défaut est 10. |
3.0.2, 3.2.1 ou ultérieure |
spark.sql.streaming.graceful.shutdown.timeout | Remarque : applicable aux exécutions de type Streaming Data Flow uniquement. Les exécutions de transmission en continu Data Flow utilisent la durée d'arrêt pour conserver les données de point de reprise afin de les redémarrer correctement à partir de l'état précédent. La configuration indique la durée maximale pendant laquelle les exécutions de transmission en continu Data Flow peuvent être utilisées pour conserver progressivement l'état du point de reprise avant d'être forcées de s'arrêter. La valeur par défaut est de 30 minutes. |
3.0.2, 3.2.1 ou ultérieure |
spark.oracle.datasource.enabled | Une source de données Oracle Spark est une extension de la source de données JDBC de Spark. Elle simplifie la connexion aux bases de données Oracle à partir de Spark. Outre toutes les options fournies par la source de données JDBC de Spark, une source de données Oracle Spark simplifie la connexion aux bases de données Oracle à partir de Spark en incluant les éléments suivants :
Pour plus d'informations, reportez-vous à Source de données Oracle Spark. |
3.0.2 ou supérieure |
spark.scheduler.minRegisteredResourcesRatio |
Valeur par défaut : 1.0 Remarque : indiqué en tant que valeur double comprise entre 0,0 et 1,0. Ratio minimal de ressources enregistrées par ressource totale attendue à attendre avant de planifier une exécution dans la couche Travail. L'ajustement de ce paramètre implique un compromis entre un démarrage plus rapide des tâches et une disponibilité adéquate des ressources. Par exemple, une valeur de 0,8 signifie que 80 % des ressources ont attendu. |
Tout |
spark.dataflow.overAllocationRatio |
Valeur par défaut : 1.0 Remarque : spécifié en tant que double supérieur ou égal à 1.0. Ratio de création excessive de ressources pour éviter l'échec du travail résultant de l'échec de la création d'une partie mineure des instances. La création d'instance supplémentaire est facturée uniquement pendant la phase de création et se termine après le début du travail. Par exemple, une valeur de 1,1 signifie que 10 % de ressources supplémentaires ont été créées pour s'adapter aux ressources attendues pour les emplois des clients. |
Tout |