Creazione di un'applicazione Data Flow Spark-Submit

Crea un'applicazione Spark-Submit in Data Flow.

  • Carica i tuoi file Spark-submit in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti.
    1. Nel menu a sinistra della pagina Flusso di dati, selezionare Applicazioni. Per informazioni su come trovare la pagina Flusso di dati, vedere Elenco di applicazioni.
    2. Nella pagina Applicazioni selezionare Crea applicazione.
    3. Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
    4. Nella configurazione delle risorse fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, fare riferimento alla sezione Dimensionamento dell'applicazione del flusso di dati.
      1. Selezionare la versione Spark.
      2. (Opzionale) Selezionare un pool.
      3. Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
      4. (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
      5. Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
      6. (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
      7. (Facoltativo) Per abilitare l'uso dell'allocazione dinamica Spark (ridimensionamento automatico), selezionare Abilita ridimensionamento automatico.
      8. Immettere il numero di esecutori necessari. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
    5. In Configurazione applicazione, fornire i valori riportati di seguito.
      1. (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark.
      2. Selezionare Usa opzioni Spark-Submit. Le opzioni di invio sparkline supportate sono:
        • --py-files
        • --files
        • --jars
        • --class
        • --conf La proprietà di configurazione Spark dell'aribtary in formato key=value. Se un valore contiene spazi, racchiuderlo tra virgolette, "key=value". Passare molte configurazioni come argomenti separati, ad esempio
           --conf <key1>=<value1> --conf <key2>=<value2>
        • application-jar Il percorso di un file JAR in bundle che include l'applicazione e tutte le relative dipendenze.
        • application-arguments Gli argomenti passati al metodo principale della classe principale.
      3. Nella casella di testo Opzioni Spark-Submit, immettere le opzioni nel formato seguente:
         --py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip>
         --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json
         --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar
         --conf spark.sql.crossJoin.enabled=true
          oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
        Ad esempio, per utilizzare Oracle Datasource Spark, utilizzare l'opzione seguente:
        --conf spark.oracle.datasource.enable=true
        Importante

        Il flusso di dati non supporta gli URI che iniziano con local:// o hdfs://. L'URI deve avviare oci://, pertanto tutti i file (incluso main-application) devono trovarsi in Oracle Cloud Infrastructure Object Storage ed è necessario utilizzare il nome dominio completamente qualificato (FQDN) per ogni file.
      4. (Facoltativo) Se si dispone di un file archive.zip, caricare archive.zip in Oracle Cloud Infrastructure Object Storage e inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:
        • Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
           oci://<bucket_name>@<namespace_name>/<file_name>
      5. In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
        • Selezionare il bucket dataflow-logs dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
           oci://dataflow-logs@<namespace_name>
        • Non selezionare Immettere il percorso del bucket manualmente e selezionare il file.
      6. (Facoltativo) Selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare prima Modifica compartimento e selezionare un compartimento diverso, quindi selezionare il metastore dalla lista. La posizione tabella gestita predefinita viene popolata automaticamente in base al metastore.
    6. (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
    7. (Facoltativo) Selezionare Mostra opzioni avanzate e fornire i valori riportati di seguito.
      1. (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore. È necessario impostare i criteri del principal risorsa.
      2. Selezionare Abilita Delta Lake per utilizzare Delta Lake.
        1. Selezionare la versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark.
        2. Selezionare il gruppo di log.
      3. (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare l'origine dati Oracle Spark.
      4. (Facoltativo) Nella sezione Log, selezionare i gruppi di log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. Se i gruppi di log si trovano in un compartimento diverso, selezionare Modifica compartimento.
      5. Aggiungere le proprietà di configurazione Spark. Immettere una coppia Chiave e Valore.
      6. Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
      7. Ripetere i passi b e c finché non sono state aggiunte tutte le proprietà di configurazione.
      8. Eseguire l'override del valore predefinito per il bucket warehouse mediante l'inserimento di URI bucket warehouse nel formato seguente:
        oci://<warehouse-name>@<tenancy>
      9. Per scegliere l'accesso di rete, selezionare una delle seguenti opzioni:
        • Se si sta collegando un endpoint privato a un flusso di dati, selezionare il pulsante di opzione Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante.
          Nota

          Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN.
        • Se non si sta utilizzando un endpoint privato, selezionare il pulsante di opzione Accesso a Internet (nessuna subnet).
      10. (Facoltativo) Per abilitare la raccolta di derivazione dati:
        1. Selezionare Abilita raccolta di derivazione dati.
        2. Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
        3. (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
      11. (Facoltativo) Solo per i job batch, per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
    8. Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
      Per modificare i valori di Nome e URL file in futuro, vedere Modifica di un'applicazione.
  • Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.

    oci data-flow application create [OPTIONS]
    Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.
  • Eseguire l'operazione CreateApplication per creare un'applicazione.