Creazione di un'applicazione Data Flow Spark-Submit
Crea un'applicazione Spark-Submit in Data Flow.
Carica i tuoi file Spark-submit in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti. - Nel menu a sinistra della pagina Flusso di dati, selezionare Applicazioni. Per informazioni su come trovare la pagina Flusso di dati, vedere Elenco di applicazioni.
- Nella pagina Applicazioni selezionare Crea applicazione.
- Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
-
Nella configurazione delle risorse fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, fare riferimento alla sezione Dimensionamento dell'applicazione del flusso di dati.
- Selezionare la versione Spark.
- (Opzionale) Selezionare un pool.
- Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
- Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
- (Facoltativo) Per abilitare l'uso dell'allocazione dinamica Spark (ridimensionamento automatico), selezionare Abilita ridimensionamento automatico.
- Immettere il numero di esecutori necessari. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
-
In Configurazione applicazione, fornire i valori riportati di seguito.
- (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark.
- Selezionare Usa opzioni Spark-Submit. Le opzioni di invio sparkline supportate sono:
--py-files
--files
--jars
--class
--conf
La proprietà di configurazione Spark dell'aribtary in formatokey=value
. Se un valore contiene spazi, racchiuderlo tra virgolette,"key=value"
. Passare molte configurazioni come argomenti separati, ad esempio--conf <key1>=<value1> --conf <key2>=<value2>
application-jar
Il percorso di un file JAR in bundle che include l'applicazione e tutte le relative dipendenze.application-arguments
Gli argomenti passati al metodo principale della classe principale.
- Nella casella di testo Opzioni Spark-Submit, immettere le opzioni nel formato seguente:
Ad esempio, per utilizzare Oracle Datasource Spark, utilizzare l'opzione seguente:
--py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip> --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar --conf spark.sql.crossJoin.enabled=true oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
--conf spark.oracle.datasource.enable=true
Importante
Il flusso di dati non supporta gli URI che iniziano conlocal://
ohdfs://
. L'URI deve avviareoci://
, pertanto tutti i file (inclusomain-application
) devono trovarsi in Oracle Cloud Infrastructure Object Storage ed è necessario utilizzare il nome dominio completamente qualificato (FQDN) per ogni file. - (Facoltativo) Se si dispone di un file
archive.zip
, caricarearchive.zip
in Oracle Cloud Infrastructure Object Storage e inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:- Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
- Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
- Selezionare il bucket
dataflow-logs
dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso. - Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
oci://dataflow-logs@<namespace_name>
- Non selezionare Immettere il percorso del bucket manualmente e selezionare il file.
- Selezionare il bucket
- (Facoltativo) Selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare prima Modifica compartimento e selezionare un compartimento diverso, quindi selezionare il metastore dalla lista. La posizione tabella gestita predefinita viene popolata automaticamente in base al metastore.
- (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
- (Facoltativo) Selezionare Mostra opzioni avanzate e fornire i valori riportati di seguito.
- (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore. È necessario impostare i criteri del principal risorsa.
- Selezionare Abilita Delta Lake per utilizzare Delta Lake.
- Selezionare la versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark.
- Selezionare il gruppo di log.
- (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare l'origine dati Oracle Spark.
- (Facoltativo) Nella sezione Log, selezionare i gruppi di log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. Se i gruppi di log si trovano in un compartimento diverso, selezionare Modifica compartimento.
- Aggiungere le proprietà di configurazione Spark. Immettere una coppia Chiave e Valore.
- Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
- Ripetere i passi b e c finché non sono state aggiunte tutte le proprietà di configurazione.
- Eseguire l'override del valore predefinito per il bucket warehouse mediante l'inserimento di URI bucket warehouse nel formato seguente:
oci://<warehouse-name>@<tenancy>
- Per scegliere l'accesso di rete, selezionare una delle seguenti opzioni:
- Se si sta collegando un endpoint privato a un flusso di dati, selezionare il pulsante di opzione Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante.
Nota
Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN. - Se non si sta utilizzando un endpoint privato, selezionare il pulsante di opzione Accesso a Internet (nessuna subnet).
- Se si sta collegando un endpoint privato a un flusso di dati, selezionare il pulsante di opzione Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante.
- (Facoltativo) Per abilitare la raccolta di derivazione dati:
- Selezionare Abilita raccolta di derivazione dati.
- Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
- (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
- (Facoltativo) Solo per i job batch, per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
-
Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
Per modificare i valori di Nome e URL file in futuro, vedere Modifica di un'applicazione.
Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.
Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.oci data-flow application create [OPTIONS]
Eseguire l'operazione CreateApplication per creare un'applicazione.