Proprietà Spark supportate in Data Flow

Per ogni esecuzione di un'applicazione Flusso dati, è possibile aggiungere le proprietà Spark nel campo Proprietà di configurazione Spark.

Per ulteriori informazioni su questi argomenti, vedere il manuale Spark Configuration Guide.

Importante

Quando si esegue il flusso di dati, non modificare il valore di spark.master. In tal caso, il job non utilizza tutte le risorse di cui è stato eseguito il provisioning.

Elenco configurazioni Spark proprietarie del flusso dati

Configurazioni Spark proprietarie di Data Flow e come utilizzarle.

Elenco configurazioni Spark flusso dati
Configurazione Spark	Descrizione dell'uso	Versioni Spark applicabili
dataflow.auth	L'impostazione del valore di configurazione su 'resource_principal' abilita l'autenticazione del principal risorsa per l'esecuzione del flusso di dati. Questa configurazione è necessaria per le esecuzioni che devono essere eseguite per più di 24 ore. Prima di abilitare il principal risorsa, impostare il criterio appropriato.	Tutto
spark.dataflow.acquireQuotaTimeout	Data Flow consente di sottomettere i job quando non si dispone di risorse sufficienti per eseguirli. I job vengono bloccati in una coda interna e rilasciati quando le risorse diventano disponibili. Il flusso di dati continua a controllare fino al termine del valore di timeout impostato. Impostare la proprietà `spark.dataflow.acquireQuotaTimeout` per specificare questo valore di timeout. Impostare la proprietà in Opzioni avanzate quando si crea un'applicazione o quando si esegue un'applicazione. Ad esempio: `spark.dataflow.acquireQuotaTimeout = 1h spark.dataflow.acquireQuotaTimeout = 30m spark.dataflow.acquireQuotaTimeout = 45min` Utilizzare `h` per rappresentare le ore di timeout e `m` o `min` per rappresentare i minuti di timeout. Nota: se `spark.dataflow.acquireQuotaTimeout` non è impostato, un'esecuzione viene accettata solo se sono disponibili le risorse necessarie.	Tutto
spark.archives#conda	La configurazione spark.archives utilizza esattamente le stesse funzionalità della relativa controparte open source. Quando si utilizza Conda come Package Manager per sottomettere i job PySpark in OCI Data Flow, collegare #conda alle voci del package di artifact in modo che Data Flow estragga gli artifact in una directory appropriata. `oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda` Per ulteriori informazioni, vedere Integrazione di Conda Pack con il flusso di dati.	3.2.1 o successiva
spark.dataflow.streaming.restartPolicy.restartPeriod	Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Questa proprietà specifica un ritardo minimo tra i riavvii di un'applicazione di streaming. Il valore predefinito è impostato su 3 minuti per evitare problemi transitori che causano molti riavvii in un periodo di tempo specifico.	3.0.2, 3.2.1 o successiva
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures	Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Questa proprietà specifica il numero massimo di errori consecutivi che possono verificarsi prima che Data Flow interrompa il riavvio di un'applicazione di streaming non riuscita. Il valore predefinito è 10.	3.0.2, 3.2.1 o successiva
spark.sql.streaming.graceful.shutdown.timeout	Nota: il tipo di streaming del flusso di dati può essere eseguito solo. Le esecuzioni del flusso di dati utilizzano la durata della chiusura per conservare correttamente i dati del checkpoint per il riavvio dallo stato precedente. La configurazione specifica il tempo massimo che le esecuzioni di streaming del flusso di dati possono utilizzare per conservare in modo normale lo stato del checkpoint prima di essere forzate all'arresto. Il valore predefinito è 30 minuti.	3.0.2, 3.2.1 o successiva
spark.oracle.datasource.enabled	L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo: Un wallet di download automatico dal database autonomo, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault. Distribuzione automatica del bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun codice personalizzato da parte degli utenti. File JAR del driver JDBC, in modo da rimuovere la necessità di scaricarli e includerli nel file `archive.zip`. La versione del driver JDBC è 21.3.0.0. Per abilitare l'origine dati Oracle Spark, impostare la configurazione, spark.oracle.datasource.enabled, su true: `spark.oracle.datasource.enabled = true` Per ulteriori informazioni, vedere Origine dati Oracle Spark.	3.0.2 o successiva
spark.scheduler.minRegisteredResourcesRatio	Valore predefinito: 1.0 Nota: viene specificato come doppio tra 0,0 e 1,0. Il rapporto minimo di risorse registrate per ogni risorsa prevista totale da attendere prima di pianificare un'esecuzione nel livello Job. L'adeguamento di questo parametro comporta un compromesso tra un avvio più rapido del job e una disponibilità adeguata delle risorse. Ad esempio, un valore pari a 0,8 indica l'80% delle risorse attese.	Tutti
spark.dataflow.overAllocationRatio	Valore predefinito: 1.0 Nota: viene specificato come doppio maggiore o uguale a 1.0. Rapporto tra creazione eccessiva di risorse per evitare errori del job dovuti alla mancata creazione di una parte secondaria delle istanze. La creazione di istanze aggiuntive viene fatturata solo durante la fase di creazione e terminata dopo l'avvio del job. Ad esempio, il valore 1.1 indica che è stato creato il 10% in più di risorse per soddisfare le risorse previste per i lavori dei clienti.	Tutti

Documentazione dell'infrastruttura Oracle Cloud

Proprietà Spark supportate in Data Flow

Elenco configurazioni Spark proprietarie del flusso dati