Creazione di un'applicazione Data Flow PySpark

Per creare un'applicazione PySpark in Data Flow, procedere come segue.

  • Carica i tuoi file Spark-submit in Oracle Cloud Infrastructure Object Storage. Per i dettagli, vedere Imposta area di memorizzazione oggetti.
    1. Nel menu a sinistra della pagina Flusso di dati, selezionare Applicazioni. Per informazioni su come trovare la pagina Flusso di dati, vedere Elenco di applicazioni.
    2. Nella pagina Applicazioni selezionare Crea applicazione.
    3. Nel pannello Crea applicazione, immettere un nome per l'applicazione e una descrizione facoltativa che faciliti la ricerca.
    4. Nella configurazione delle risorse fornire i valori riportati di seguito. Per informazioni su come calcolare il numero di risorse necessarie, fare riferimento alla sezione Dimensionamento dell'applicazione del flusso di dati.
      1. Selezionare la versione Spark.
      2. (Opzionale) Selezionare un pool.
      3. Per la forma driver, selezionare il tipo di nodo cluster da utilizzare per ospitare il driver Spark.
      4. (Facoltativo) Se è stata selezionata una forma flessibile per il driver, personalizzare il numero di OCPU e la quantità di memoria.
      5. Per la forma esecutore, selezionare il tipo di nodo cluster da utilizzare per ospitare ogni esecutore Spark.
      6. (Facoltativo) Se è stata selezionata una forma flessibile per l'esecutore, personalizzare il numero di OCPU e la quantità di memoria.
      7. (Facoltativo) Per abilitare l'uso dell'allocazione dinamica Spark (ridimensionamento automatico), selezionare Abilita ridimensionamento automatico.
      8. Immettere il numero di esecutori necessario. Se si è scelto di utilizzare la scala automatica, immettere un numero minimo e massimo di esecutori.
    5. In Configurazione applicazione, fornire i valori riportati di seguito.
      1. (Facoltativo) Se l'applicazione è per lo streaming Spark, selezionare Streaming Spark
      1. Nota

        Affinché l'applicazione di streaming funzioni, è necessario aver seguito i passi descritti nella Guida introduttiva a Spark Streaming.
      2. Non selezionare Usa opzioni Spark-Submit.
      3. Selezionare Python dalle opzioni Language.
      4. In Selezionare un file, immettere l'URL del file dell'applicazione. Ci sono due modi per farlo:
        • Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente l'URL del file e immettere il nome e il percorso del file utilizzando il seguente formato:
           oci://<bucket_name>@<objectstore_namespace>/<file_name>
      5. Immettere il nome della classe principale.
      6. (Facoltativo) Immettere gli argomenti da utilizzare per richiamare la classe principale. Non ci sono limiti al loro numero o ai loro nomi. Ad esempio, nel campo Argomenti immettere:
        ${<argument_1>} ${<argument_2>}
        Viene richiesto di immettere il valore predefinito. È una buona idea entrare in questi ora. Ogni volta che si aggiunge un argomento, viene visualizzato un parametro con il nome, come immesso nel campo Argomento e una casella di testo in cui immettere il valore del parametro.

        Se si specifica lo streaming Spark, è necessario includere la cartella di checkpoint come argomento. Per informazioni su come passare un checkpoint come argomento, vedere un esempio del codice di esempio in GitHub.

        Nota

        Non includere i caratteri "$" o "/" nel nome o nel valore del parametro.
      7. (Facoltativo) Se si dispone di un file archive.zip, caricare il file in Oracle Cloud Infrastructure Object Storage e quindi inserire il percorso dell'URI di archivio. Al riguardo vi sono due modalità:
        • Selezionare il file dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del file e immettere il nome e il percorso del file utilizzando il seguente formato:
           oci://<bucket_name>@<namespace_name>/<file_name>
      8. In Posizione log applicazione, specificare la posizione in cui si desidera includere Oracle Cloud Infrastructure Logging in uno dei modi riportati di seguito.
        • Selezionare il bucket dataflow-logs dalla lista Nome file di storage degli oggetti. Selezionare Modifica compartimento se il bucket si trova in un compartimento diverso.
        • Selezionare Immettere manualmente il percorso del bucket e immettere il relativo percorso utilizzando il seguente formato:
           oci://dataflow-logs@<namespace_name>
      9. (Facoltativo) Selezionare il metastore dall'elenco. Se il metastore si trova in un compartimento diverso, selezionare Modifica compartimento. La posizione predefinita della tabella gestita viene popolata automaticamente in base al metastore.
    6. (Facoltativo) Nella sezione Tag aggiungere una o più tag a <resourceType>. Se si dispone delle autorizzazioni per creare una risorsa, si dispone anche delle autorizzazioni per applicare le tag in formato libero a tale risorsa. Per applicare una tag definita, è necessario disporre delle autorizzazioni per utilizzare la tag namespace. Per ulteriori informazioni sull'applicazione di tag, vedere Tag risorsa. Se non si è certi di applicare le tag, saltare questa opzione o chiedere a un amministratore. È possibile applicare le tag in un secondo momento.
    7. (Facoltativo) Aggiungere opzioni di configurazione avanzate.
      1. Selezionare Mostra opzioni avanzate.
      2. (Facoltativo) Selezionare Usa autenticazione principal risorsa per abilitare l'avvio più rapido o se si prevede che l'esecuzione durerà più di 24 ore.
      3. (Facoltativo) Selezionare Abilita origine dati Oracle Spark per utilizzare l'origine dati Oracle Spark.
      4. Selezionare una versione Delta Lake. Il valore selezionato si riflette nella coppia chiave/valore delle proprietà di configurazione Spark. Per informazioni su Delta Lake, vedere Data Flow e Delta Lake.
      5. Nella sezione Log, selezionare i gruppi di log e i log dell'applicazione per Oracle Cloud Infrastructure Logging. È possibile modificare il compartimento se i gruppi di log si trovano in un compartimento diverso.
      6. Immettere la chiave della proprietà di configurazione Spark e un valore.
        • Se si utilizza lo streaming Spark, includere una chiave di spark.sql.streaming.graceful.shutdown.timeout con un valore non superiore a 30 minuti (in millisecondi).
        • Se si utilizza Spark Oracle Datasource, includere una chiave di spark.oracle.datasource.enabled con il valore true.
      7. Selezionare + Altra proprietà per aggiungere un'altra proprietà di configurazione.
      8. (Facoltativo) Eseguire l'override del valore predefinito per il bucket warehouse inserendo l'URI bucket warehouse nel formato seguente:
        oci://<warehouse-name>@<tenancy>
      9. Selezionare l'accesso alla rete.
        1. Se si sta collegando un endpoint privato a Data Flow, selezionare Accesso sicuro alla subnet privata. Selezionare l'endpoint privato dalla lista risultante.
          Nota

          Non è possibile utilizzare un indirizzo IP per connettersi all'endpoint privato, è necessario utilizzare il nome FQDN.
        2. Se non si sta utilizzando un endpoint privato, selezionare Accesso a Internet (nessuna subnet).
      10. (Facoltativo) Per abilitare la raccolta di derivazione dati:
        1. Selezionare Abilita raccolta di derivazione dati.
        2. Selezionare Immetti Data Catalog manualmente o selezionare un'istanza di Data Catalog da un compartimento configurabile nella tenancy corrente.
        3. (Facoltativo) Se nel passo precedente è stata selezionata l'opzione Immetti Data Catalog manualmente, immettere i valori per OCID tenancy Data Catalog, OCID compartimento Data Catalog e ODID istanza Data Catalog.
      11. Per Durata massima esecuzione in minuti, immettere un valore compreso tra 60 (1 ora) e 10080 (7 giorni). Se non si immette un valore, l'esecuzione sottomessa continua fino a quando non riesce, non riesce, viene annullata o raggiunge la durata massima predefinita (24 ore).
    8. Selezionare Crea per creare l'applicazione oppure selezionare Salva come stack per crearla in un secondo momento.
      Per modificare i valori per la lingua, il nome e l'URL del file in futuro, vedere Modifica di un'applicazione. È possibile modificare il linguaggio solo tra Java e Scala. Non è possibile modificarlo in Python o SQL.
  • Per creare un'applicazione, utilizzare il comando create e i parametri richiesti.

    oci data-flow application create [OPTIONS]
    Per un elenco completo dei flag e delle opzioni variabili per i comandi CLI, consultare il manuale CLI Command Reference.
  • Eseguire l'operazione CreateApplication per creare un'applicazione.