Creazione di un'applicazione Data Flow PySpark

Per creare un'applicazione PySpark in Data Flow, procedere come segue.

  • Carica i tuoi file di invio Spark in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti.
    1. Nella pagina Flusso di dati, nel menu a sinistra, selezionare Applicazioni. Per assistenza nella ricerca della pagina Flusso di dati, vedere Elenco delle applicazioni.
    2. Nella pagina Applicazioni selezionare Crea applicazione.
    3. Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
    4. In Configurazione risorsa, fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, vedere Dimensione dell'applicazione Data Flow.
      1. Selezionare la versione Spark.
      2. (Opzionale) Selezionare un pool.
      3. Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
      4. (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
      5. Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
      6. (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
      7. (Facoltativo) Per abilitare l'uso dell'allocazione dinamica (ridimensionamento automatico) Spark, selezionare Abilita ridimensionamento automatico.
      8. Immettere il numero di esecutori necessario. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
    5. In Configurazione applicazione, fornire i valori riportati di seguito.
      1. (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark
      1. Nota

        Per consentire il funzionamento dell'applicazione di streaming, è necessario aver seguito la procedura descritta nella Guida introduttiva a Spark Streaming.
      2. Non selezionare Usa opzioni Spark-Submit.
      3. Selezionare Python dalle opzioni Language.
      4. In Selezionare un file, immettere l'URL del file dell'applicazione. Ci sono due modi per farlo:
        • Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente l'URL del file e immettere il nome e il percorso del file utilizzando il seguente formato:
           oci://<bucket_name>@<objectstore_namespace>/<file_name>
                                                          
      5. Immettere il nome della classe principale.
      6. (Facoltativo) Immettere gli argomenti da utilizzare per richiamare la classe principale. Non ci sono limiti al loro numero o ai loro nomi. Ad esempio, nel campo Argomenti immettere:
        ${<argument_1>} ${<argument_2>}
        Viene richiesto di immettere il valore predefinito. È una buona idea entrare in questi ora. Ogni volta che si aggiunge un argomento, viene visualizzato un parametro con il nome, come immesso nel campo Argomento e una casella di testo in cui immettere il valore del parametro.

        Se si specifica lo streaming Spark, è necessario includere la cartella di checkpoint come argomento. Per informazioni su come passare un checkpoint come argomento, vedere un esempio del codice di esempio in GitHub.

        Nota

        Non includere i caratteri "$" o "/" nel nome o nel valore del parametro.
      7. (Facoltativo) Se si dispone di un file archive.zip, caricare il file in Oracle Cloud Infrastructure Object Storage e quindi inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:
        • Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
           oci://<bucket_name>@<namespace_name>/<file_name>
                                                          
      8. In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
        • Selezionare il bucket dataflow-logs dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
           oci://dataflow-logs@<namespace_name>
                                                          
      9. (Facoltativo) Selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare Modifica compartimento. La posizione predefinita della tabella gestita viene popolata automaticamente in base al metastore.
    6. (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
    7. (Facoltativo) Aggiungere opzioni di configurazione avanzate.
      1. Selezionare Mostra opzioni avanzate.
      2. (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore.
      3. (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare Spark Oracle Datasource.
      4. Selezionare una versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark. Per informazioni su Delta Lake, vedere Data Flow e Delta Lake.
      5. Nella sezione Log selezionare i gruppi Log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. È possibile modificare il compartimento se i gruppi di log si trovano in un compartimento diverso.
      6. Immettere la chiave della proprietà di configurazione Spark e un valore.
        • Se si utilizza lo streaming Spark, includere una chiave di spark.sql.streaming.graceful.shutdown.timeout con un valore non superiore a 30 minuti (in millisecondi).
        • Se stai utilizzando l'origine dati Oracle Spark, includi una chiave di spark.oracle.datasource.enabled con il valore true.
      7. Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
      8. (Facoltativo) Eseguire l'override del valore predefinito per il bucket warehouse inserendo l'URI bucket warehouse nel formato seguente:
        oci://<warehouse-name>@<tenancy>
                                                
      9. Selezionare l'accesso alla rete.
        1. Se si sta collegando un endpoint privato a Data Flow, selezionare Accesso sicuro a subnet privata. Selezionare l'endpoint privato dalla lista risultante.
          Nota

          Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN.
        2. Se non si sta utilizzando un endpoint privato, selezionare Accesso a Internet (nessuna subnet).
      10. (Facoltativo) Per abilitare la raccolta di derivazione dati:
        1. Selezionare Abilita raccolta di derivazione dati.
        2. Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
        3. (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
      11. Per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
    8. Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
      Per modificare in futuro i valori per lingua, nome e URL file, vedere Modifica di un'applicazione. È possibile modificare il linguaggio solo tra Java e Scala. Non è possibile modificarlo in Python o SQL.
  • Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.

    oci data-flow application create [OPTIONS]
    Per un elenco completo dei flag e delle opzioni di variabile per i comandi CLI, consultare CLI Command Reference.
  • Eseguire l'operazione CreateApplication per creare un'applicazione.