Proprietà Spark supportate in Data Flow

Per ogni esecuzione di un'applicazione Flusso dati, è possibile aggiungere le proprietà Spark nel campo Proprietà di configurazione Spark.

Per ulteriori informazioni su questi argomenti, vedere il manuale Spark Configuration Guide.
Importante

Quando si esegue il flusso di dati, non modificare il valore di spark.master. In tal caso, il job non utilizza tutte le risorse di cui è stato eseguito il provisioning.

Elenco configurazioni Spark proprietarie del flusso dati

Configurazioni Spark proprietarie di Data Flow e come utilizzarle.

Elenco configurazioni Spark flusso dati
Configurazione Spark Descrizione dell'uso Versioni Spark applicabili
dataflow.auth L'impostazione del valore di configurazione su 'resource_principal' abilita l'autenticazione del principal risorsa per l'esecuzione del flusso di dati. Questa configurazione è necessaria per le esecuzioni che devono essere eseguite per più di 24 ore. Prima di abilitare il principal risorsa, impostare il criterio appropriato. Tutto
spark.dataflow.acquireQuotaTimeout Data Flow consente di sottomettere i job quando non si dispone di risorse sufficienti per eseguirli. I job si trovano in una coda interna e vengono rilasciati quando le risorse diventano disponibili. Il flusso dati continua a controllare fino al termine del valore di timeout impostato. Impostare la proprietà spark.dataflow.acquireQuotaTimeout per specificare questo valore di timeout. Impostare la proprietà in Opzioni avanzate durante la creazione di un'applicazione o l'esecuzione di un'applicazione. Ad esempio:
spark.dataflow.acquireQuotaTimeout = 1h
spark.dataflow.acquireQuotaTimeout = 30m
spark.dataflow.acquireQuotaTimeout = 45min
Utilizzare h per rappresentare le ore di timeout e m o min per rappresentare i minuti di timeout.

Nota: se spark.dataflow.acquireQuotaTimeout non è impostato, un'esecuzione viene accettata solo se le risorse richieste sono disponibili.

Tutto
spark.archives#conda La configurazione spark.archives utilizza esattamente le stesse funzionalità della relativa controparte open source. Quando si utilizza Conda come Package Manager per sottomettere i job PySpark in OCI Data Flow, collegare #conda alle voci del package di artifact in modo che Data Flow estragga gli artifact in una directory appropriata.
oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda
Per ulteriori informazioni, vedere Integrazione di Conda Pack con il flusso di dati.
3.2.1 o successiva
spark.dataflow.streaming.restartPolicy.restartPeriod

Nota: il tipo di streaming del flusso di dati può essere eseguito solo.

Questa proprietà specifica un ritardo minimo tra i riavvii di un'applicazione di streaming. Il valore predefinito è impostato su 3 minuti per evitare problemi transitori che causano molti riavvii in un periodo di tempo specifico.

3.0.2, 3.2.1 o successiva
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures

Nota: il tipo di streaming del flusso di dati può essere eseguito solo.

Questa proprietà specifica il numero massimo di errori consecutivi che possono verificarsi prima che Data Flow interrompa il riavvio di un'applicazione di streaming non riuscita. Il valore predefinito è 10.

3.0.2, 3.2.1 o successiva
spark.sql.streaming.graceful.shutdown.timeout

Nota: il tipo di streaming del flusso di dati può essere eseguito solo.

Le esecuzioni del flusso di dati utilizzano la durata della chiusura per conservare correttamente i dati del checkpoint per il riavvio dallo stato precedente. La configurazione specifica il tempo massimo che le esecuzioni di streaming del flusso di dati possono utilizzare per conservare in modo normale lo stato del checkpoint prima di essere forzate all'arresto. Il valore predefinito è 30 minuti.

3.0.2, 3.2.1 o successiva
spark.oracle.datasource.enabled

L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:

  • Un wallet di download automatico dal database autonomo, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault.
  • Distribuzione automatica del bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun codice personalizzato da parte degli utenti.
  • File JAR del driver JDBC, in modo da rimuovere la necessità di scaricarli e includerli nel file archive.zip. La versione del driver JDBC è 21.3.0.0.
Per abilitare l'origine dati Oracle Spark, impostare la configurazione, spark.oracle.datasource.enabled, su true:
spark.oracle.datasource.enabled = true
Per ulteriori informazioni, vedere Origine dati Oracle Spark.
3.0.2 o successiva
spark.scheduler.minRegisteredResourcesRatio

Valore predefinito: 1.0

Nota: viene specificato come doppio tra 0,0 e 1,0.

Il rapporto minimo di risorse registrate per ogni risorsa prevista totale da attendere prima di pianificare un'esecuzione nel livello Job. L'adeguamento di questo parametro comporta un compromesso tra un avvio più rapido del job e una disponibilità adeguata delle risorse.

Ad esempio, un valore pari a 0,8 indica l'80% delle risorse attese.

Tutti
spark.dataflow.overAllocationRatio

Valore predefinito: 1.0

Nota: viene specificato come doppio maggiore o uguale a 1.0.

Rapporto tra creazione eccessiva di risorse per evitare errori del job dovuti alla mancata creazione di una parte secondaria delle istanze. La creazione di istanze aggiuntive viene fatturata solo durante la fase di creazione e terminata dopo l'avvio del job.

Ad esempio, il valore 1.1 indica che è stato creato il 10% in più di risorse per soddisfare le risorse previste per i lavori dei clienti.

Tutti