Proprietà Spark supportate in Data Flow
Per ogni esecuzione di un'applicazione Flusso dati, è possibile aggiungere le proprietà Spark nel campo Proprietà di configurazione Spark.
Quando si esegue il flusso di dati, non modificare il valore di
spark.master
. In tal caso, il job non utilizza tutte le risorse di cui è stato eseguito il provisioning. Elenco configurazioni Spark proprietarie del flusso dati
Configurazioni Spark proprietarie di Data Flow e come utilizzarle.
Configurazione Spark | Descrizione dell'uso | Versioni Spark applicabili |
---|---|---|
dataflow.auth | L'impostazione del valore di configurazione su 'resource_principal' abilita l'autenticazione del principal risorsa per l'esecuzione del flusso di dati. Questa configurazione è necessaria per le esecuzioni che devono essere eseguite per più di 24 ore. Prima di abilitare il principal risorsa, impostare il criterio appropriato. | Tutto |
spark.dataflow.acquireQuotaTimeout | Data Flow consente di sottomettere i job quando non si dispone di risorse sufficienti per eseguirli. I job si trovano in una coda interna e vengono rilasciati quando le risorse diventano disponibili. Il flusso dati continua a controllare fino al termine del valore di timeout impostato. Impostare la proprietà spark.dataflow.acquireQuotaTimeout per specificare questo valore di timeout. Impostare la proprietà in Opzioni avanzate durante la creazione di un'applicazione o l'esecuzione di un'applicazione. Ad esempio:
Utilizzare h per rappresentare le ore di timeout e m o min per rappresentare i minuti di timeout.
Nota: se |
Tutto |
spark.archives#conda | La configurazione spark.archives utilizza esattamente le stesse funzionalità della relativa controparte open source. Quando si utilizza Conda come Package Manager per sottomettere i job PySpark in OCI Data Flow, collegare #conda alle voci del package di artifact in modo che Data Flow estragga gli artifact in una directory appropriata.
Per ulteriori informazioni, vedere Integrazione di Conda Pack con il flusso di dati. |
3.2.1 o successiva |
spark.dataflow.streaming.restartPolicy.restartPeriod | Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Questa proprietà specifica un ritardo minimo tra i riavvii di un'applicazione di streaming. Il valore predefinito è impostato su 3 minuti per evitare problemi transitori che causano molti riavvii in un periodo di tempo specifico. |
3.0.2, 3.2.1 o successiva |
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures | Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Questa proprietà specifica il numero massimo di errori consecutivi che possono verificarsi prima che Data Flow interrompa il riavvio di un'applicazione di streaming non riuscita. Il valore predefinito è 10. |
3.0.2, 3.2.1 o successiva |
spark.sql.streaming.graceful.shutdown.timeout | Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Le esecuzioni del flusso di dati utilizzano la durata della chiusura per conservare correttamente i dati del checkpoint per il riavvio dallo stato precedente. La configurazione specifica il tempo massimo che le esecuzioni di streaming del flusso di dati possono utilizzare per conservare in modo normale lo stato del checkpoint prima di essere forzate all'arresto. Il valore predefinito è 30 minuti. |
3.0.2, 3.2.1 o successiva |
spark.oracle.datasource.enabled | L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:
Per ulteriori informazioni, vedere Origine dati Oracle Spark. |
3.0.2 o successiva |
spark.scheduler.minRegisteredResourcesRatio |
Valore predefinito: 1.0 Nota: viene specificato come doppio tra 0,0 e 1,0. Il rapporto minimo di risorse registrate per ogni risorsa prevista totale da attendere prima di pianificare un'esecuzione nel livello Job. L'adeguamento di questo parametro comporta un compromesso tra un avvio più rapido del job e una disponibilità adeguata delle risorse. Ad esempio, un valore pari a 0,8 indica l'80% delle risorse attese. |
Tutti |
spark.dataflow.overAllocationRatio |
Valore predefinito: 1.0 Nota: viene specificato come doppio maggiore o uguale a 1.0. Rapporto tra creazione eccessiva di risorse per evitare errori del job dovuti alla mancata creazione di una parte secondaria delle istanze. La creazione di istanze aggiuntive viene fatturata solo durante la fase di creazione e terminata dopo l'avvio del job. Ad esempio, il valore 1.1 indica che è stato creato il 10% in più di risorse per soddisfare le risorse previste per i lavori dei clienti. |
Tutti |