Creazione di un'applicazione Data Flow Spark-Submit
Crea un'applicazione Spark-Submit in Data Flow.
Carica i tuoi file di invio Spark in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti. - Nella pagina Flusso di dati, nel menu a sinistra, selezionare Applicazioni. Per assistenza nella ricerca della pagina Flusso di dati, vedere Elenco delle applicazioni.
- Nella pagina Applicazioni selezionare Crea applicazione.
- Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
-
In Configurazione risorsa, fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, vedere Dimensione dell'applicazione Data Flow.
- Selezionare la versione Spark.
- (Facoltativo) Selezionare un compartimento pool.
- Selezionare un pool.
- Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
- Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
- (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
- (Facoltativo) Per abilitare l'uso dell'allocazione dinamica (ridimensionamento automatico) Spark, selezionare Abilita ridimensionamento automatico.
- Immettere il numero di esecutori necessari. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
-
In Configurazione applicazione, fornire i valori riportati di seguito.
- (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark.
- Selezionare Usa opzioni Spark-Submit. Le opzioni di invio sparkline supportate sono:
--py-files--files--jars--class--confLa proprietà di configurazione Spark dell'aribtary in formatokey=value. Se un valore contiene spazi, racchiuderlo tra virgolette,"key=value". Passare molte configurazioni come argomenti separati, ad esempio--conf <key1>=<value1> --conf <key2>=<value2>application-jarIl percorso di un file JAR in bundle che include l'applicazione e tutte le relative dipendenze.application-argumentsGli argomenti passati al metodo principale della classe principale.
- Nella casella di testo Opzioni Spark-Submit, immettere le opzioni nel formato seguente:
Ad esempio, per utilizzare Spark Oracle Datasource, utilizzare l'opzione seguente:
--py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip> --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar --conf spark.sql.crossJoin.enabled=true oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>--conf spark.oracle.datasource.enable=trueImportante
Il flusso di dati non supporta gli URI che iniziano conlocal://ohdfs://. L'URI deve avviareoci://, pertanto tutti i file (inclusomain-application) devono trovarsi in Oracle Cloud Infrastructure Object Storage ed è necessario utilizzare il nome dominio completamente qualificato (FQDN) per ogni file. - (Facoltativo) Se si dispone di un file
archive.zip, caricarearchive.zipin Oracle Cloud Infrastructure Object Storage e inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:- Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
- Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
- Selezionare il bucket
dataflow-logsdalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso. - Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
oci://dataflow-logs@<namespace_name> - Non selezionare Immettere il percorso del bucket manualmente e selezionare il file.
- Selezionare il bucket
- (Facoltativo) In Catalogo unificato, selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare prima il compartimento del metastore e selezionare un compartimento diverso, quindi selezionare il metastore dalla lista. La posizione predefinita della tabella gestita viene popolata automaticamente in base al metastore.
- (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
- (Facoltativo) Selezionare Opzioni avanzate e fornire i valori riportati di seguito.
- (Facoltativo) Nella sezione Log selezionare i gruppi di log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. Se i gruppi di log si trovano in un compartimento diverso, selezionare un compartimento dalla lista Compartimento di log.
- Eseguire l'override del valore predefinito per il bucket warehouse mediante l'inserimento di URI bucket warehouse nel formato seguente:
oci://<warehouse-name>@<tenancy> - Per scegliere l'accesso di rete, selezionare una delle seguenti opzioni:
- Se si sta collegando un endpoint privato a Data Flow, selezionare il pulsante di opzione Accesso sicuro a subnet privata. Selezionare l'endpoint privato dalla lista risultante. Nota
Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN. - Se non si sta utilizzando un endpoint privato, selezionare il pulsante di opzione Accesso a Internet (nessuna subnet).
- Se si sta collegando un endpoint privato a Data Flow, selezionare il pulsante di opzione Accesso sicuro a subnet privata. Selezionare l'endpoint privato dalla lista risultante.
- (Facoltativo) Per abilitare la raccolta di derivazione dati:
- Selezionare Abilita raccolta di derivazione dati.
- Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
- (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
- (Facoltativo) Solo per i job batch, per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
- (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore. È necessario impostare Criteri principal risorsa.
- Selezionare Abilita Delta Lake per utilizzare Delta Lake.
- Selezionare la versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark.
- Selezionare il gruppo di log.
- (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare Spark Oracle Datasource.
- Aggiungere le proprietà di configurazione Spark. Immettere una coppia Chiave e Valore.
- Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
- Ripetere i passi b e c finché non sono state aggiunte tutte le proprietà di configurazione.
-
Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
Per modificare i valori di Nome e URL file in futuro, vedere Modifica di un'applicazione.
Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.
Per un elenco completo dei flag e delle opzioni di variabile per i comandi CLI, consultare CLI Command Reference.oci data-flow application create [OPTIONS]Eseguire l'operazione CreateApplication per creare un'applicazione.