Creazione di un'applicazione Data Flow PySpark
Per creare un'applicazione PySpark in Data Flow, procedere come segue.
Carica i tuoi file Spark-submit in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti. - Nel menu a sinistra della pagina Flusso di dati, selezionare Applicazioni. Per informazioni su come trovare la pagina Flusso di dati, vedere Elenco di applicazioni.
- Nella pagina Applicazioni selezionare Crea applicazione.
- Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
-
Nella configurazione delle risorse fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, fare riferimento alla sezione Dimensionamento dell'applicazione del flusso di dati.
- Selezionare la versione Spark.
- (Opzionale) Selezionare un pool.
- Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
- Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
- (Facoltativo) Per abilitare l'uso dell'allocazione dinamica Spark (ridimensionamento automatico), selezionare Abilita ridimensionamento automatico.
- Immettere il numero di esecutori necessario. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
-
In Configurazione applicazione, fornire i valori riportati di seguito.
- (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark
-
Nota
Affinché l'applicazione di streaming funzioni, è necessario aver seguito i passi descritti nella Guida introduttiva a Spark Streaming. - Non selezionare Usa opzioni Spark-Submit.
- Selezionare Python dalle opzioni Language.
- In Selezionare un file, immettere l'URL del file dell'applicazione. Ci sono due modi per farlo:
- Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
- Selezionare Immettere manualmente l'URL del file e immettere il nome e il percorso del file utilizzando il seguente formato:
oci://<bucket_name>@<objectstore_namespace>/<file_name>
- Immettere il nome della classe principale.
- (Facoltativo) Immettere gli argomenti da utilizzare per richiamare la classe principale. Non ci sono limiti al loro numero o ai loro nomi. Ad esempio, nel campo Argomenti immettere:
Viene richiesto di immettere il valore predefinito. È una buona idea entrare in questi ora. Ogni volta che si aggiunge un argomento, viene visualizzato un parametro con il nome, come immesso nel campo Argomento e una casella di testo in cui immettere il valore del parametro.${<argument_1>} ${<argument_2>}
Se si specifica lo streaming Spark, è necessario includere la cartella di checkpoint come argomento. Per informazioni su come passare un checkpoint come argomento, vedere un esempio del codice di esempio in GitHub.
Nota
Non includere i caratteri "$" o "/" nel nome o nel valore del parametro. - (Facoltativo) Se si dispone di un file
archive.zip
, caricare il file in Oracle Cloud Infrastructure Object Storage e quindi inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:- Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
- Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
- Selezionare il bucket
dataflow-logs
dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso. - Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
oci://dataflow-logs@<namespace_name>
- Selezionare il bucket
- (Facoltativo) Selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare Modifica compartimento. La posizione predefinita della tabella gestita viene popolata automaticamente in base al metastore.
- (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
- (Facoltativo) Aggiungere opzioni di configurazione avanzate.
- Selezionare Mostra opzioni avanzate.
- (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore.
- (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare l'origine dati Oracle Spark.
- Selezionare una versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark. Per informazioni su Delta Lake, vedere Data Flow e Delta Lake.
- Nella sezione Log, selezionare i gruppi di log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. È possibile modificare il compartimento se i gruppi di log si trovano in un compartimento diverso.
- Immettere la chiave della proprietà di configurazione Spark e un valore.
- Se si utilizza lo streaming Spark, includere una chiave di
spark.sql.streaming.graceful.shutdown.timeout
con un valore non superiore a 30 minuti (in millisecondi). - Se si utilizza Spark Oracle Datasource, includere una chiave di
spark.oracle.datasource.enabled
con il valoretrue
.
- Se si utilizza lo streaming Spark, includere una chiave di
- Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
- (Facoltativo) Eseguire l'override del valore predefinito per il bucket warehouse inserendo l'URI bucket warehouse nel formato seguente:
oci://<warehouse-name>@<tenancy>
- Selezionare l'accesso alla rete.
- Se si sta collegando un endpoint privato a Data Flow, selezionare Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante. Nota
Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN. - Se non si sta utilizzando un endpoint privato, selezionare Accesso a Internet (nessuna subnet).
- Se si sta collegando un endpoint privato a Data Flow, selezionare Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante.
- (Facoltativo) Per abilitare la raccolta di derivazione dati:
- Selezionare Abilita raccolta di derivazione dati.
- Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
- (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
- Per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
-
Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
Per modificare i valori per la lingua, il nome e l'URL del file in futuro, vedere Modifica di un'applicazione. È possibile modificare il linguaggio solo tra Java e Scala. Non è possibile modificarlo in Python o SQL.
Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.
Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.oci data-flow application create [OPTIONS]
Eseguire l'operazione CreateApplication per creare un'applicazione.