Usa pipeline

Una pipeline consente di connettere un set di task in una sequenza o in parallelo per orchestrare l'elaborazione dei dati.

Creando una pipeline, puoi creare un complesso grafico di dipendenza delle attività e automatizzare un intero carico di lavoro di attività. I task devono essere pubblicati ed è possibile aggiungerli da qualsiasi applicazione presente nell'area di lavoro corrente o da un'altra area di lavoro.

In questa esercitazione:

  • Creare due task di Data Loader da eseguire in parallelo in una pipeline.
  • Creare un task REST per utilizzare il servizio di notifica per l'invio di notifiche e-mail.
  • Creare una pipeline e aggiungere operatori per task di Data Loader, unione, task di integrazione e task REST.
  • Creare un task pipeline per configurare un contesto di runtime per una pipeline.
  • Pubblicare un task della pipeline ed eseguire una pipeline.
  • Monitorare l'esecuzione di una pipeline.

1. Creazione di un task di Data Loader per i dati ricavi

Duplicare il task Load Revenue Data into Data Warehouse per creare un nuovo task che carica e sovrascrive i dati dei ricavi.

  1. Nella pagina dei dettagli del progetto Laboratorio IDE selezionare Task nel sottomenu.
  2. Nell'elenco Task, trovare Load Revenue Data into Data Warehouse.
  3. Selezionare il menu Azioni (Menu Azioni), quindi selezionare Duplica.
  4. Nella finestra di dialogo Duplica task immettere Revenue Data Load per il nuovo nome e selezionare Duplica.

    Il valore Identificativo viene generato automaticamente in base al nome fornito. È possibile modificare il valore generato, ma dopo aver salvato il nuovo task non è consentito aggiornare l'identificativo.

  5. Nell'elenco Task selezionare Caricamento dati ricavi.

    La pagina del task Data Loader duplicato viene visualizzata in una nuova scheda.

  6. Selezionare l'icona del passo Destinazione.
  7. In Impostazioni caricamento entità dati di destinazione, selezionare Usa entità dati esistenti.
  8. Nel menu Strategia di integrazione, selezionare Sovrascrivi.
  9. In Entità dati disponibili selezionare la casella di controllo per REVENUE_TARGET, quindi selezionare Imposta come destinazione.

    Il nome REVENUE_TARGET viene visualizzato accanto a Entità dati selezionata.

  10. Selezionare Salva per salvare il task e continuare la modifica.
  11. Selezionare Successivo per passare al passo Trasformazione.

    Non rimuovere la trasformazione di riempimento Null applicata in precedenza a SRC_ORDER_NUMBER.

  12. Selezionare Successivo per passare al passo Mapping attributi.

    Tutti gli attributi di origine e destinazione vengono mappati automaticamente.

  13. Selezionare Successivo per passare al passo Rivedi e convalida.

    La convalida dell'attività inizia automaticamente.

    Un riepilogo dei dettagli di configurazione per ogni passo viene presentato in un blocco. Se si modifica la configurazione di un passo, passare al passo Rivedi e convalida per convalidare di nuovo il task.

    Il risultato della convalida del task viene visualizzato nell'ultimo blocco, Convalida.

  14. Al termine della convalida, selezionare Salva e chiudi.

2. Creazione di un task di Data Loader per i dati cliente

Creare un task di Data Loader per caricare i dati dei clienti in Data Warehouse creando una nuova entità dati di destinazione.

  1. Nella pagina dei dettagli del progetto Laboratorio IDE selezionare Task nel sottomenu.
  2. Selezionare Crea task, quindi Data loader.

    Viene visualizzata la pagina Crea task programma di caricamento dati in una nuova scheda. I passi numerati e denominati nella parte superiore guidano l'utente nella configurazione. Un segno di spunta viene visualizzato su un'icona a forma di passo dopo la configurazione del passo. Per spostarsi tra i passi, selezionare Successivo o Precedente. È inoltre possibile passare direttamente a un passo configurato selezionando l'icona.

  3. Nella pagina Crea task Data Loader, nel passo Informazioni di base selezionare quanto segue:
    Per questo articoloSelezionare
    Tipo di origine Storage file
    Tipo di oggetto Database
    Tipo di caricamento Singola entità dati
  4. Per il nome del task, immettere Customer Data Load. Selezionare quindi Successivo per andare al passo successivo.

    Dopo aver configurato il passo, viene visualizzato un segno di spunta sull'icona del passo Informazioni di base.

  5. Nel passo Origine, selezionare quanto segue.
    Per questo articoloSelezionare
    Asset dati Data_Lake
    Connessione Connessione predefinita
    Compartimento Compartimento con il bucket in cui è stato caricato il file di dati di esempio, CUSTOMERS.JSON
    Bucket Bucket di storage degli oggetti che contiene il file JSON di esempio
  6. In Impostazioni file, selezionare quanto segue:
    Per questo articoloSelezionare
    Tipo di file JSON
    Tipo di compressione Automatico (predefinito)
    Codifica UTF-8

    È possibile lasciare le impostazioni predefinite invariate nei campi rimanenti.

  7. In Entità dati disponibili, selezionare la casella di controllo per CUSTOMERS.JSON, quindi selezionare Imposta come origine.

    Il nome CUSTOMERS.JSON viene visualizzato accanto a Entità dati selezionata.

  8. Selezionare Crea per salvare il task e continuare la modifica.
  9. Selezionare Successivo per passare al passo Destinazione, quindi selezionare quanto segue.
    Per questo articoloSelezionare
    Asset dati Data_Warehouse
    Connessione Connessione predefinita
    Schema BETA
  10. In Posizione area intermedia è possibile utilizzare la posizione area intermedia predefinita impostata durante la creazione dell'asset dati di destinazione.

    In alternativa, puoi deselezionare la casella di controllo per selezionare un altro bucket di storage degli oggetti.

  11. In Impostazioni caricamento entità dati di destinazione, selezionare Crea nuove entità dati.
  12. In Opzioni nome entità dati di destinazione, selezionare Specifica nome entità. Nel campo Nome entità immettere quindi CUSTOMER_JSON_TARGET.
  13. Selezionare Salva per salvare il task e continuare la modifica.
  14. Selezionare il passo Rivedi e convalida, saltando il passo di trasformazione facoltativo.

    La convalida dell'attività inizia automaticamente.

    Un riepilogo dei dettagli di configurazione per ogni passo viene presentato in un blocco. Se si modifica la configurazione di un passo, passare al passo Rivedi e convalida per convalidare di nuovo il task.

    Il risultato della convalida del task viene visualizzato nell'ultimo blocco, Convalida.

  15. Al termine della convalida, selezionare Salva e chiudi.

3. Creazione di un task REST per l'invio di notifiche

È possibile utilizzare un task REST per eseguire un endpoint API REST in una pipeline. In questa esercitazione viene utilizzata l'API del servizio Notifiche in un task REST di Data Integration per pubblicare un messaggio di posta elettronica da una pipeline.

Per creare un task REST in questo passo, è necessario disporre già dei seguenti elementi:
  • Argomento e sottoscrizione e-mail creati nel servizio Notifiche.

  • L'OCID dell'argomento creato. L'OCID è disponibile nella sezione Informazioni argomento della pagina dei dettagli dell'argomento nel servizio Notifiche.

  • L'istruzione criterio seguente che consente di eseguire i task di Data Integration che richiamano l'API REST di Notifiche:

    allow any-user to use notification-family in tenancy where ALL {request.principal.type='disworkspace'}

Quindi, in Integrazione dati, creare un task REST che utilizza l'API del servizio Notifiche per pubblicare un messaggio di posta elettronica.

  1. Nella pagina dei dettagli del progetto Laboratorio IDE selezionare Task nel sottomenu.
  2. Selezionare Crea task, quindi selezionare REST.

    Viene visualizzata la pagina Crea task REST in una nuova scheda.

  3. In Nome, immettere Notify by Email.

    Il valore Identificativo viene generato automaticamente in base al nome fornito. È possibile modificare il valore generato, ma dopo aver salvato il nuovo task non è consentito aggiornare l'identificativo.

  4. Nella sezione Dettagli API REST, selezionare Configura.

    Viene visualizzata la pagina Configura dettagli API REST. I passi numerati e denominati nella parte superiore guidano l'utente nella configurazione. Un segno di spunta viene visualizzato su un'icona a forma di passo dopo la configurazione del passo. Per spostarsi tra i passi, selezionare Successivo o Precedente. È inoltre possibile passare direttamente a un passo configurato selezionando l'icona.

  5. Per Metodo HTTP, selezionare POST.
  6. Nel campo URL, immettere quanto segue e premere Invio.
    https://notification.us-ashburn-1.oci.oraclecloud.com/20181201/topics/${TOPICID}/messages
    Nota

    Assicurarsi di utilizzare l'identificativo di area appropriato per il servizio di notifiche.

    Quando si preme Invio dopo aver immesso l'URL, Data Integration converte la sintassi del parametro ${} in un parametro URL stringa.

  7. Nella riga della tabella per il parametro URL TOPICID appena aggiunto, selezionare Modifica dal menu Azioni (Menu Azioni).
  8. Nel campo Valore immettere l'OCID dell'argomento Notifiche creato e selezionare Salva.
  9. Aggiungere quindi un'intestazione attenendosi alla procedura riportata di seguito.
    1. Selezionare Intestazione.
    2. Selezionare Aggiungi intestazione.
    3. Nel campo Chiave, immettere con e selezionare Tipo di contenuto dalla lista.
    4. Nel campo Valore, immettere app e selezionare application/json dalla lista.
    5. Selezionare Aggiungi.
  10. Aggiungere un corpo della richiesta effettuando le operazioni riportate di seguito.
    1. Selezionare Richiesta.
    2. Nell'editor immettere quanto segue.
      {"title": "Put your title here", "body": "Put your email body here."}
    3. Selezionare Aggiungi.
  11. Selezionare Avanti, quindi selezionare Configura.
  12. Per fornire l'autenticazione, effettuare le operazioni riportate di seguito.
    1. Nella sezione Autenticazione, selezionare Modifica per visualizzare il pannello Configura autenticazione.
    2. Nel menu Autenticazione, selezionare Principal risorsa OCI.
    3. In Origine autenticazione, selezionare Area di lavoro.
    4. Selezionare Configura.
  13. Nella sezione facoltativa Convalida task, selezionare Convalida.
  14. Al termine della convalida, selezionare Crea e chiudi.

4. Pubblicazione del programma di caricamento dati e dei task REST

  1. Nella pagina dei dettagli del progetto DI_Lab, selezionare Task nel sottomenu.
  2. Dall'elenco dei task, selezionare le caselle di controllo accanto a Caricamento dati ricavi, Caricamento dati cliente e Notifica tramite e-mail.
  3. Selezionare Pubblica nell'applicazione.
  4. Nella finestra di dialogo Pubblica nell'applicazione selezionare Applicazione laboratorio e selezionare Pubblica.

    Viene visualizzato un messaggio di notifica con un collegamento all'applicazione per visualizzare i task pubblicati.

  5. Selezionare Visualizza applicazione nella notifica. Selezionare quindi X per chiudere la notifica.

    Viene visualizzata la lista Patch nella pagina Dettagli applicazione. Viene creata una voce di patch per i task che si stanno pubblicando.

  6. Nell'elenco Patches è possibile monitorare lo stato delle patch. Selezionare Aggiorna per ottenere gli aggiornamenti più recenti sullo stato.

    Quando lo stato di una patch viene modificato in Operazione riuscita, nella lista Task della pagina Dettagli applicazione vengono create tre voci di task pubblicate.

  7. Nella pagina dei dettagli Applicazione laboratorio selezionare Task.

    I task pubblicati per Caricamento dati ricavi, Caricamento dati cliente e Notifica tramite e-mail vengono visualizzati nell'elenco dei task.

5. Creazione di una pipeline

  1. Nella barra delle schede selezionare la scheda Apri (icona più) e quindi selezionare Progetti.
  2. Nella pagina Progetti, selezionare DI_Lab.
  3. Nella pagina dei dettagli del progetto DI_Lab, selezionare Pipeline nel menu secondario sul lato sinistro, quindi selezionare Crea pipeline.

    Il designer della pipeline viene aperto in una nuova scheda. Un operatore iniziale e un operatore finale vengono posizionati automaticamente sullo sfondo.

  4. Nel pannello Proprietà per la pipeline, immettere Analyze Revenue come Nome.

    Il valore Identificativo viene generato automaticamente in base al valore immesso per il nome della pipeline. È possibile modificare il valore generato, ma dopo aver salvato la pipeline non è consentito aggiornare l'identificativo.

  5. Selezionare Crea.

    Il designer rimane aperto per continuare a modificare.

6. Aggiunta di operatori pipeline

Gli operatori task vengono aggiunti per specificare i task pubblicati da orchestrare nella pipeline.

Ulteriori informazioni sugli operatori di pipeline.

  1. Dal pannello Operatori, rilasciare un operatore Data Loader nell'area di creazione, posizionandolo tra gli operatori iniziale e finale.

    Il pannello Proprietà ora visualizza i dettagli per l'operatore del task del programma di caricamento dati non limitato.

  2. Nella scheda Dettagli del pannello Proprietà, fare clic su Seleziona.

    Viene visualizzato il pannello Selezionare un task Data Loader per selezionare un task Data Loader pubblicato.

  3. In Applicazione laboratorio, selezionare Caricamento dati ricavi (task che carica i dati ricavi in un data warehouse) e fare clic su Seleziona.

    Il nome sull'icona dell'operatore viene modificato nel nome del task selezionato.

  4. Connettere l'operatore iniziale al task del programma di caricamento dati ricavi.
  5. Per salvare la pipeline e continuare la modifica, selezionare Salva.
  6. Ripetere i passi per aggiungere un secondo operatore Data Loader. Questa volta, selezionare Caricamento dati cliente (task che carica i dati dei clienti). Collegare quindi l'operatore iniziale al task del programma di caricamento dati cliente.
  7. Quindi, rilasciare l'operatore Unisci nell'area di creazione, posizionandolo dopo i due task del programma di caricamento dati.
  8. Connettere ogni task del programma di caricamento dati all'operatore Unisci.
  9. Nella scheda Dettagli del pannello Proprietà per l'operatore di unione, selezionare Tutto riuscito dal menu Condizione di unione.

    Ciò specifica che le operazioni parallele collegate a monte devono essere completate e riuscite prima che l'operazione a valle successiva possa continuare.

  10. Dal pannello Operatori, rilasciare l'operatore Integrazione sull'area di creazione, posizionandolo dopo l'operatore di unione.
  11. Nella scheda Dettagli del pannello Proprietà, fare clic su Seleziona.
  12. Nel pannello Selezionare un task di integrazione, selezionare il task Load Customers Lab e fare clic su Seleziona.
  13. Connettere l'operatore di unione all'operatore del task di integrazione.
  14. Successivamente, rilasciare l'operatore REST nell'area di creazione, posizionandolo dopo il task di integrazione.
  15. Nella scheda Dettagli del pannello Proprietà, fare clic su Seleziona.
  16. Nel pannello Selezionare un task REST, selezionare il task Notifica tramite e-mail e fare clic su Seleziona.
  17. Nella scheda Dettagli del pannello Proprietà per l'operatore di task REST, selezionare Esegui in caso di operazione riuscita dell'operatore precedente dal menu Condizione collegamento in entrata.
  18. Connettere il task REST all'operatore finale.
  19. Selezionare Convalida nella barra degli strumenti dello sfondo.

    Viene visualizzato il pannello Convalida globale che consente di esaminare eventuali avvertenze o errori.

  20. Per salvare la pipeline, selezionare Salva e chiudi

7. Creazione di un task della pipeline

  1. Nella barra delle schede selezionare la scheda Apri (icona più) e quindi selezionare Progetti.
  2. Nella pagina Progetti, selezionare DI_Lab.
  3. Nella pagina dei dettagli del progetto DI_Lab, selezionare Task nel sottomenu a sinistra.
  4. Selezionare Crea task, quindi selezionare Pipeline.

    Viene visualizzata la pagina Crea task pipeline in una nuova scheda.

  5. Nella pagina Crea task pipeline, modificare il nome in Analyze Revenue Lab.

    L'immissione di una descrizione è facoltativa. Il valore nel campo Identificativo viene generato automaticamente in base al valore immesso per Nome. È possibile modificare il valore generato, ma dopo aver salvato il task non è consentito aggiornare l'identificativo.

  6. Nella sezione Pipeline fare clic su Seleziona.
  7. Nel pannello Selezionare una pipeline, selezionare Analizza ricavi e fare clic su Seleziona.

    La convalida della pipeline inizia automaticamente.

  8. Selezionare Crea e chiudi.

8. Pubblicazione ed esecuzione di un task della pipeline

  1. Nella pagina dei dettagli del progetto DI_Lab, selezionare Task nel sottomenu.
  2. Nell'elenco Task selezionare il menu Azioni (Menu Azioni) per Analizza laboratorio ricavi, quindi selezionare Pubblica nell'applicazione.
  3. Nella finestra di dialogo Pubblica nell'applicazione selezionare Applicazione laboratorio e selezionare Pubblica.

    Viene visualizzato un messaggio di notifica con un collegamento all'applicazione per visualizzare i task pubblicati.

  4. Andare alla pagina dei dettagli dell'applicazione laboratorio e selezionare Patch nel sottomenu a sinistra per visualizzare i dettagli della patch del task.

    Una patch contiene aggiornamenti a un task pubblicato in un'applicazione. Quando si pubblica un task, viene creata una patch di pubblicazione. Ulteriori informazioni sui patch.

  5. Nell'elenco Patches è possibile monitorare lo stato delle patch. Selezionare Aggiorna per ottenere gli aggiornamenti più recenti sullo stato.

    Quando lo stato di una patch viene modificato in Operazione riuscita, viene creata una voce di task pubblicata nella lista Task della pagina Dettagli applicazione.

  6. Nella pagina dei dettagli Applicazione laboratorio selezionare Task.

    Il task pubblicato della pipeline Analizza laboratorio ricavi viene visualizzato nell'elenco dei task.

  7. Selezionare il menu Azioni (Menu Azioni) per il task pipeline e selezionare Esegui.

    Viene visualizzato un messaggio di operazione riuscita. L'esecuzione di un task crea un'esecuzione task. Viene visualizzata automaticamente la pagina Esegui, in cui è possibile visualizzare tutte le esecuzioni dei task e il relativo stato. Lo stato iniziale di un'esecuzione della pipeline è Not started.

  8. Nell'elenco Esegui della pagina dei dettagli Applicazione laboratorio selezionare Aggiorna per ottenere gli aggiornamenti più recenti dello stato di esecuzione dei task.

    Tenere presente che l'esecuzione di una pipeline include i passi per la pre-elaborazione, l'accettazione e la convalida prima che il motore di esecuzione avvii l'esecuzione effettiva della pipeline.

    Selezionare Aggiorna alcune volte finché non viene visualizzato lo stato In esecuzione.

  9. Quando il task pipeline è in esecuzione, selezionare il nome dell'esecuzione del task.

    Viene visualizzata la pagina Dettagli esecuzione, in cui è possibile monitorare l'avanzamento dell'esecuzione della pipeline nel grafico Pipeline. Lo stato di ciascun nodo è indicato da un'icona e da un'etichetta. Ad esempio, un segno di spunta verde per un nodo completato, l'etichetta Running per i task in esecuzione e l'etichetta Waiting per un task a valle in attesa di essere eseguito.

    Selezionare Aggiorna alcune volte finché non viene visualizzato Operazione riuscita per lo stato di esecuzione complessivo della pipeline.

    È inoltre possibile selezionare Panoramica per visualizzare ulteriori dettagli sull'esecuzione della pipeline.

  10. Quando l'esecuzione della pipeline riesce, andare alla lista Esegui della pagina dei dettagli dell'applicazione di laboratorio ed espandere la voce di esecuzione principale per l'esecuzione del task della pipeline.

    È possibile visualizzare i dettagli di esecuzione di quattro singoli task nella pipeline.

    Avresti anche ricevuto un'e-mail dal servizio di notifiche.