Informazioni sui flussi di dati

Un flusso di dati definisce la modalità di spostamento e trasformazione dei dati tra sistemi diversi.

Un flusso di dati in Trasformazioni dati connette le origini alle destinazioni mediante un flusso di componenti quali Join, Filtro, Aggrega, Imposta, Dividi e così via. Per ulteriori informazioni, vedere Funzioni di database supportate.

Quando si esegue un flusso dati, Trasformazioni dati utilizza i join, i filtri, i mapping e i vincoli per trasformare i dati di origine e caricarli nelle tabelle di destinazione. Si noti che è possibile eseguire un solo flusso di esecuzione alla volta. Non è possibile inserire più flussi in un flusso dati e un flusso non può divergere in più flussi.

Creare un flusso di dati

Creare flussi di dati per caricare i dati da una connessione di origine, eseguire trasformazioni e spostare i dati in un database di destinazione.

È possibile creare flussi di dati in uno dei modi riportati di seguito.

Il flusso di dati appena creato viene visualizzato nella pagina Flussi di dati del progetto associato. Fare clic sull'icona Azioni (Icona Azioni) accanto al flusso di dati selezionato per modificarlo, rinominarlo, copiarlo, modificarlo, avviarlo, esportarlo o eliminarlo.

Dalla pagina Progetti

Per creare un flusso di dati dalla pagina Progetti,

  1. Nella pagina Progetti, fare clic su Crea flusso dati.

    Viene visualizzata la pagina Crea flusso dati:

  2. Immettere un nome per il nuovo flusso di dati nel campo Nome.
  3. Selezionare Crea nuovo progetto se si desidera creare una nuova cartella di progetto per il flusso dati appena creato.
  4. In caso contrario, fare clic su Aggiungi a progetti esistenti se si desidera aggiungere il flusso dati appena creato a una cartella di progetto esistente.
  5. Se nel campo Crea nuovo progetto è stata selezionata l'opzione precedente, immettere il nome del progetto appena creato nel campo Nome progetto.
  6. In caso contrario, se per l'opzione precedente è stata selezionata l'opzione Aggiungi a progetti esistenti, selezionare il progetto richiesto dalla freccia dell'elenco a discesa Nome progetto.
  7. Nel campo Descrizione, immettere una descrizione per il flusso di dati appena creato.
  8. Fare clic su Crea.

Dalla pagina Flussi di dati in un progetto

Per creare un flusso di dati dalla pagina Flussi di dati all'interno di un progetto,

  1. Nella pagina Progetti fare clic sulla casella Progetto per la quale si desidera creare un nuovo flusso di dati. Viene visualizzata la pagina Dettagli progetto.
  2. Nella pagina Flussi di dati fare clic su Crea flusso di dati.
  3. Fornire il nome e la descrizione del nuovo flusso dati.
  4. Fare clic su Avanti.
  5. Per definire la connessione di origine, nell'elenco a discesa Connessione selezionare la connessione richiesta da cui si desidera aggiungere le entità dati.
  6. Nell'elenco a discesa Schema, tutti gli schemi corrispondenti alla connessione selezionata sono elencati in due gruppi:
    • Schema esistente (quelli importati nelle trasformazioni dei dati Oracle) e
    • Nuovo schema di database (quelli non ancora importati).

    Selezionare lo schema che si desidera utilizzare dall'elenco a discesa. Per le connessioni allo storage degli oggetti Oracle, l'elenco a discesa Schema elenca il nome del bucket specificato nell'URL al momento della creazione della connessione.

  7. Fare clic su Salva.

    Viene visualizzato l'editor del flusso di dati che consente di creare un nuovo flusso di dati.

Home page

Per creare un flusso di dati dalla home page,

  1. Nella home page, fare clic su Trasforma dati. Viene visualizzata la pagina Crea flusso dati.
  2. Fornire il nome e la descrizione del nuovo flusso dati.
  3. Selezionare un nome di progetto dall'elenco a discesa. In alternativa, fare clic sull'icona + per creare un progetto.
  4. Fare clic su Avanti.
  5. Nell'elenco a discesa Connessione selezionare la connessione richiesta da cui si desidera aggiungere le entità dati. In alternativa, fare clic sull'icona + per creare una nuova connessione.
  6. Nell'elenco a discesa Schema, tutti gli schemi corrispondenti alla connessione selezionata sono elencati in due gruppi:
    • Schema esistente (quelli importati nelle trasformazioni dei dati Oracle) e
    • Nuovo schema di database (quelli non ancora importati).

    Selezionare lo schema che si desidera utilizzare dall'elenco a discesa.

  7. Fare clic su Salva.

Informazioni sull'editor di Data Flow

L'editor del flusso di dati è suddiviso in cinque parti, il pannello Entità dati, la barra degli strumenti Funzioni database, lo sfondo della progettazione, il pannello Proprietà e il pannello Stato.



  • Pannello Entità dati: nel pannello Entità dati vengono visualizzate le entità dati disponibili per l'utilizzo nei flussi dati. L'elenco visualizzato può essere filtrato utilizzando i campi Nome e Tag. Il pannello include opzioni che consentono di aggiungere schemi, importare entità dati, rimuovere qualsiasi schema associato al flusso di dati e aggiornare le entità dati. Per informazioni sull'utilizzo di queste opzioni, vedere Aggiungi componenti.
  • Barra degli strumenti Funzioni database: la barra degli strumenti Funzioni database visualizza le funzioni del database che possono essere utilizzate nei flussi di dati. Proprio come le entità dati, è possibile trascinare e rilasciare gli strumenti di database che si desidera utilizzare sullo sfondo della progettazione. Per ulteriori informazioni, vedere Funzioni di database supportate.
  • Design Canvas: lo sfondo di progettazione consente di creare la logica di trasformazione. Dopo aver aggiunto le entità dati e le funzioni di database allo sfondo della progettazione, è possibile connetterle in ordine logico per completare i flussi di dati.
  • Pannello Proprietà: nel pannello Proprietà vengono visualizzate le proprietà dell'oggetto selezionato nello sfondo della progettazione. Il pannello Proprietà è raggruppato in quattro schede. Generale, Attributi, Anteprima dati, Mapping colonne e Opzioni. Non tutte le schede sono disponibili in quanto variano in base all'oggetto selezionato. Per ulteriori informazioni su queste opzioni, vedere Proprietà componente.
  • Pannello stato: quando si esegue un flusso di dati, il pannello Stato mostra lo stato del job in esecuzione in background per completare la richiesta. È possibile visualizzare lo stato del job attualmente in esecuzione o lo stato dell'ultimo job. Per ulteriori informazioni sul pannello Stato, vedere Monitorare lo stato dei carichi di dati, dei flussi di dati e dei flussi di lavoro.

Dopo aver progettato il flusso di dati richiesto,

  • Fare clic su icona Salva per salvare il flusso di dati creato/desegnato.
  • Fare clic su icona layout automatico per allineare i nodi del flusso di dati progettato.
  • Fare clic su icona Esegui per eseguire il flusso di dati creato.
  • Fare clic su icona convalida per convalidare il flusso di dati creato.
  • Fare clic su Icone di zoom avanti e zoom indietro per ingrandire o ridurre al minimo il diagramma del flusso di dati creato nello sfondo della progettazione.

Funzioni di database supportate

Oracle Data Transforms supporta varie funzioni di database che è possibile trascinare sullo sfondo della progettazione per connettere i componenti all'interno di un flusso di dati.

La barra degli strumenti Funzioni di database nell'editor Data Flow include le funzioni di database riportate di seguito che possono essere utilizzate nei flussi di dati. Per informazioni sulle funzioni del database, vedere Oracle Database SQL Language Reference.

  1. Trasformazione dei dati

    Le opzioni disponibili sono descritte di seguito.

    • Aggrega
    • Espressione
    • Filtra
    • Entra
    • Distinto
    • Ricerca
    • Imposta
    • Ordina
    • Filtro di subquery
    • Funzione tabella
  2. Preparazione dati

    Le opzioni disponibili sono descritte di seguito.

    • Pulizia dati
    • Sostituzione
    • Binning Equi_Width
    • Binning quantili
    • Portare
    • Ritardo
    • Sostituisci
  3. Il machine learning

    Le opzioni disponibili sono descritte di seguito.

    • Previsione
    • Modello di predizione
    • Rilevamento valori anomali
    • Vettore incorporamento testo
  4. Testo

    Le opzioni disponibili sono descritte di seguito.

    • CONTEGGIO TRANS.
    • STRUMENTO DI SPESA NORMALE
    • SOTTOSTR. ESPRESSIONE REG.
    • SOSTITUZIONE ESPRESSIONE REGOLARE
    • Somiglianza distanza di modifica
    • Contiene
  5. Oracle Spatial and Graph

    Le opzioni disponibili sono descritte di seguito.

    • Dim. buffer
    • Toll. buffer
    • Dim. distanza
    • Toll. distanza
    • Più prossimo
    • Semplifica
    • Punto
    • Strumenti codifica geografica:
      Nota

      Gli strumenti di codifica geografica riportati di seguito funzionano solo in un ambiente non Autonomous Database.
      • Codifica geografica come geometria
      • Codifica geografica
      • Ind. codifica geografica
      • Codifica geografica per tutto
      • Ind. codifica geografica per tutto
      • Codifica geografica inversa
      Nota

      Il seguente strumento codifica geografica funziona solo in un ambiente Autonomous Database.
      • Cloud codifica geografica
    • Join spaziale

Aggiungere i componenti

Aggiungere le entità dati e le funzioni di database allo sfondo di progettazione e connetterle in un ordine logico per completare i flussi di dati.

Per aggiungere componenti al flusso di dati:
  1. Nel pannello Entità dati fare clic su Aggiungi uno schema per aggiungere gli schemi che contengono le entità dati che si desidera utilizzare nel flusso dati.
  2. Nella pagina Aggiungi schema selezionare il nome della connessione e dello schema.
  3. Fare clic su Importa.
  4. Nella pagina Importa entità dati, selezionare il tipo di oggetti che si desidera importare. Scegliere un filtro/maschera se non si desidera importare ogni oggetto nello schema e fare clic su Avvia.
  5. Il pannello Entità dati elenca le entità dati importate. Il pannello include diverse opzioni che consentono di effettuare le operazioni riportate di seguito.
    • Aggiorna entità dati: fare clic sull'icona Aggiorna Icona Aggiorna per aggiornare l'elenco visualizzato.
    • Nome: consente di cercare le entità dati in base al nome.
    • Tag: filtra le entità dati in base al nome della tag utilizzata.
    • Importa entità dati: fare clic con il pulsante destro del mouse sullo schema per visualizzare questa opzione. Utilizzare questa opzione per importare le entità dati.
    • Rimuovi schema: fare clic con il pulsante destro del mouse sull'entità dati per visualizzare questa opzione. Utilizzare questa opzione per rimuovere lo schema dalla lista. Tenere presente che questa opzione non elimina lo schema, ma rimuove solo l'associazione dello schema a questo flusso di dati.
  6. In modo simile, aggiungere altri schemi al flusso di dati, se necessario.
  7. Trascinare le entità dati necessarie che si desidera utilizzare nel flusso di dati e rilasciarle sullo sfondo della progettazione.
  8. Nella barra degli strumenti Funzioni di database trascinare il componente di trasformazione che si desidera utilizzare nel flusso di dati e rilasciarlo sullo sfondo della progettazione. È possibile utilizzare le variabili nel flusso di dati. Per ulteriori informazioni, vedere Usa variabili in un flusso di dati.
  9. Selezionare un oggetto nello sfondo della progettazione e trascinare l'icona Connettore (Icona Connettore) accanto a tale oggetto per connettere i componenti.
  10. Dopo aver salvato il flusso di dati, potrebbe essere presente un'icona di trasferimento sovrapposta su una o più connessioni del componente. Ciò indica che ODI ha rilevato un passo aggiuntivo ed è necessario spostare i dati tra i server di dati. È possibile fare clic su questa icona per visualizzare le proprietà associate a questo passo.

Usa vettore di incorporamento testo in un flusso di dati

Data Transforms supporta l'uso del tipo di dati vettoriale e l'incorporamento di vettori in un flusso di dati. Attualmente, Data Transforms si integra con il servizio OCI Generative AI per convertire il testo di input in integrazioni vettoriali che puoi utilizzare per l'analisi dei dati e le ricerche.

Prima di utilizzare l'incorporamento di vettori in un flusso di dati, è necessario effettuare le operazioni riportate di seguito.

Per utilizzare le integrazioni vettoriali in un flusso di dati:

  1. Seguire le istruzioni riportate in Crea un flusso dati per creare un nuovo flusso dati.
  2. Nell'Editor flussi di dati fare clic su Aggiungi uno schema per definire la connessione di origine. Nell'elenco a discesa Connessione selezionare la connessione a Oracle Database 23ai e lo schema che si desidera utilizzare dall'elenco a discesa. Fare clic su OK.
  3. Trascinare le tabelle che si desidera utilizzare come origine nel flusso di dati e rilasciarle sullo sfondo della progettazione.
  4. Nella barra degli strumenti Funzioni database, fare clic su Machine Learning e trascinare il componente di trasformazione Integrazione testo nello sfondo della progettazione.
  5. Fare clic sul componente di trasformazione Vettore di incorporamento testo per visualizzarne le proprietà.
  6. Nella scheda Generale, specificare quanto segue:
    • Servizio AI: selezionare AI generativa OCI dall'elenco a discesa.
    • Connessione: nell'elenco a discesa sono elencate tutte le connessioni disponibili per il servizio AI selezionato. Selezionare la connessione Oracle Database 23 ai che si desidera utilizzare.
    • Modello AI: nell'elenco a discesa sono elencati tutti i modelli disponibili per il servizio AI e la connessione selezionati. Sono elencati i seguenti modelli:
      • "cohere.embed-english-light-v2.0"
      • "cohere.embed-english-light-v3.0"
      • "cohere.embed-english-v3.0"
      • "cohere.embed-luce-multilingua-v3.0"
      • "cohere.embed-multilingue-v3.0"
      È inoltre possibile digitare il nome del modello.
  7. Nella scheda Mapping colonne mappare la colonna di origine che si desidera incorporare all'attributo INPUT dell'operatore. L'unica colonna disponibile nei mapping delle colonne è input_text. Trascinare una colonna di testo dalle colonne disponibili nella colonna Espressione. Questi sono i dati su cui verranno costruiti i vettori.
  8. Trascinare la tabella che si desidera utilizzare come destinazione nel flusso di dati e rilasciarla sullo sfondo della progettazione.
  9. Salvare ed eseguire il flusso dati.

    Le trasformazioni dei dati genereranno vettori per ciascuna delle righe nella tabella di origine e li scriveranno nella tabella di destinazione.

Proprietà componente

Il pannello Proprietà visualizza varie impostazioni per i componenti selezionati nell'area di disegno.

A seconda del componente selezionato, è possibile che venga visualizzata una delle seguenti icone:

  • Generale (Generale): visualizza il nome del componente insieme ai relativi dettagli di connessione e schema. È possibile modificare alcune di queste proprietà.
  • Attributi (Attributi): visualizza i dettagli di tutti gli attributi associati al componente.
  • Mapping colonne (Mapping colonne): consente di mappare automaticamente tutte le colonne. Per ulteriori informazioni, vedere Mappa colonne dati.
  • Anteprima (Anteprima) - Visualizza un'anteprima del componente. Per le tabelle Oracle è inoltre possibile visualizzare le statistiche dell'entità dati selezionata. Per informazioni dettagliate sulle informazioni statistiche disponibili, vedere Visualizza statistiche delle entità dati.
  • Opzioni (Opzioni) - Visualizza opzioni quali
    • Tronca tabella: sostituisce qualsiasi contenuto di tabella di destinazione esistente con nuovi dati.
    • Aggiungi - inserisce i record dal flusso nella destinazione. I record esistenti non vengono aggiornati.
    • Incrementale: integra i dati nella tabella di destinazione confrontando i record del flusso con i record esistenti e aggiornando i record quando i dati associati non sono uguali. Vengono inseriti quelli che non esistono ancora nella destinazione.
      Questa opzione include una funzione di compressione automatica impostata su True per impostazione predefinita. Per i job del flusso di dati che utilizzano la modalità Aggiornamento incrementale per caricare i dati in una partizione di destinazione Oracle compressa, la funzione di compressione automatica comprime di nuovo le partizioni di destinazione modificate al termine del caricamento. Per le partizioni di tabella non originariamente compresse, la compressione viene saltata indipendentemente dal fatto che la compressione automatica sia impostata su true.
      Nota

      L'opzione di compressione automatica è disponibile per l'utente ADMIN o per un utente con ruolo DWROLE. Per i flussi di dati con utenti dello schema diversi da ADMIN, è necessario assegnare DWROLE all'utente o disabilitare la compressione automatica per evitare errori di esecuzione.

Mappa colonne dati

Quando si connette l'entità dati di origine all'entità dati di destinazione, i nomi delle colonne vengono mappati automaticamente dai nomi delle colonne. È possibile mappare le colonne in base alla posizione o al nome oppure mapparle manualmente utilizzando l'Editor espressioni.

Per mappare le colonne in base alla posizione o al nome:

  1. Selezionare l'entità dati di destinazione.
  2. Fare clic sull'icona a forma di freccia presente nell'angolo superiore destro per espandere il pannello Proprietà. Questo vi darà più spazio per lavorare con.
  3. Nel pannello Proprietà fare clic sull'icona Mapping colonne (Icona Mapping colonne).
  4. Per mappare le colonne per posizione o per nome, dal menu a discesa Mappa automatica selezionare Per posizione o Per nome.

Per mappare manualmente le colonne, effettuare le operazioni riportate di seguito.

  1. Dal menu a discesa Mappa automatica, selezionare Cancella per cancellare i mapping esistenti.
  2. Trascinare e rilasciare gli attributi dall'albero a sinistra per eseguire il mapping con la colonna Espressione.
  3. Per modificare un'espressione, fare clic sull'icona Modifica della colonna corrispondente. Viene visualizzato l'Editor espressioni che consente di eseguire le modifiche necessarie (ad esempio, è possibile aggiungere un'espressione - "UPPER" o aprire l'Editor espressioni per modificare l'espressione).
    Nota

    Utilizzare l'editor espressioni solo se sono presenti espressioni complesse per una determinata colonna.
  4. Fare clic su OK.

Convalida ed esegui flusso dati

Una volta pronti i mapping, è possibile procedere alla convalida e all'esecuzione del flusso di dati.

Procedere nel modo seguente:
  1. Fare clic su Salva.

    Dopo il salvataggio, se è necessario posizionare i dati nell'area intermedia prima della trasformazione, il pulsante Trasferisci viene aggiunto a uno o più collegamenti. È possibile fare clic su questi pulsanti per impostare ulteriori opzioni, se disponibili.

  2. Fare clic sull'icona Simulazione codice (Icona Simula codice) se si desidera controllare il codice che verrà eseguito per completare i task eseguiti quando si esegue il job del flusso dati. I dettagli di origine e destinazione vengono visualizzati in colori diversi per facilitarne il riferimento. Questa operazione è utile se si desidera verificare se il mapping è corretto prima di eseguire il job o se il job non riesce. Si noti che il codice non può essere utilizzato per il debug. Per informazioni dettagliate sulla mansione, vedere la pagina Dettagli mansione.
  3. Fare clic sull'icona Convalida (Icona Convalida) nella barra degli strumenti sopra lo sfondo della progettazione per convalidare il flusso di dati.
  4. Dopo una convalida riuscita, fare clic sull'icona Esegui (Icona Esegui) accanto all'icona Convalida per eseguire il flusso di dati.

    Se sono state aggiunte variabili al flusso di dati, viene visualizzata la pagina Valori variabili che visualizza l'elenco delle variabili aggiunte al flusso di dati. È possibile scegliere di utilizzare il valore corrente, il valore predefinito o impostare un valore personalizzato per ogni variabile. Si noti che il valore personalizzato viene applicato solo all'esecuzione corrente del flusso di dati. Il valore personalizzato non è persistente per le sessioni successive.

    Viene visualizzato un messaggio che visualizza l'ID e il nome del job di esecuzione. Per controllare lo stato del flusso di dati, vedere il pannello Stato a destra sotto il pannello Proprietà. Per informazioni dettagliate sul pannello Stato, vedere Monitorare lo stato dei carichi di dati, dei flussi di dati e dei flussi di lavoro. In questo pannello viene inoltre visualizzato il collegamento all'ID job su cui è possibile fare clic per monitorare l'avanzamento nella pagina Job. Per ulteriori informazioni, vedere Creare e gestire i job.

    Per i flussi di dati creati utilizzando le connessioni allo storage degli oggetti Oracle, i dati del file CSV di origine vengono caricati nell'Oracle Autonomous Database di destinazione. È inoltre possibile esportare i dati da una tabella di Oracle Autonomous Database in un file CSV in Oracle Object Storage.