Informazioni sui flussi di dati
Un flusso di dati definisce la modalità di spostamento e trasformazione dei dati tra sistemi diversi.
Quando si esegue un flusso dati, Trasformazioni dati utilizza i join, i filtri, i mapping e i vincoli per trasformare i dati di origine e caricarli nelle tabelle di destinazione. Si noti che è possibile eseguire un solo flusso di esecuzione alla volta. Non è possibile inserire più flussi in un flusso dati e un flusso non può divergere in più flussi.
- Creare un flusso di dati
Creare flussi di dati per caricare i dati da una connessione di origine, eseguire trasformazioni e spostare i dati in un database di destinazione. - Informazioni sull'editor dei flussi di dati
L'editor dei flussi di dati è diviso in cinque parti: Pannello entità dati, Barra degli strumenti Funzioni database, Sfondo progettazione, Pannello proprietà e Pannello stato. - Funzioni di database supportate
Oracle Data Transforms supporta varie funzioni di database che è possibile trascinare e rilasciare sullo sfondo della progettazione per connettere i componenti all'interno di un flusso di dati. - Aggiungi componenti
Aggiungere le entità dati e le funzioni di database allo sfondo di progettazione e connetterle in un ordine logico per completare i flussi di dati. - Utilizzare il vettore di incorporamento del testo in un flusso di dati
Le trasformazioni dati supportano l'uso del tipo di dati vettoriale e l'incorporamento di vettori in un flusso di dati. Attualmente, Data Transforms si integra con il servizio OCI Generative AI per convertire il testo di input in integrazioni vettoriali che puoi utilizzare per l'analisi dei dati e le ricerche. - Proprietà componente
Nel pannello Proprietà vengono visualizzate varie impostazioni per i componenti selezionati nello sfondo della progettazione. - Esegui mapping colonne dati
Quando si connette l'entità dati di origine all'entità dati di destinazione, i nomi delle colonne vengono mappati automaticamente dai nomi delle colonne. È possibile mappare le colonne in base alla posizione o al nome oppure mapparle manualmente utilizzando l'Editor espressioni. - Convalidare ed eseguire un flusso di dati
Dopo che i mapping sono pronti, è possibile continuare a convalidare ed eseguire il flusso di dati.
Argomento padre: Pagina Trasformazioni dati
Creare un flusso di dati
Creare flussi di dati per caricare i dati da una connessione di origine, eseguire trasformazioni e spostare i dati in un database di destinazione.
È possibile creare flussi di dati in uno dei modi riportati di seguito.
Il flusso di dati appena creato viene visualizzato nella pagina Flussi di dati del progetto associato. Fare clic sull'icona Azioni () accanto al flusso di dati selezionato per modificarlo, rinominarlo, copiarlo, modificarlo, avviarlo, esportarlo o eliminarlo.
Dalla pagina Progetti
Per creare un flusso di dati dalla pagina Progetti,
- Nella pagina Progetti, fare clic su Crea flusso dati.
Viene visualizzata la pagina Crea flusso dati:
- Immettere un nome per il nuovo flusso di dati nel campo Nome.
- Selezionare Crea nuovo progetto se si desidera creare una nuova cartella di progetto per il flusso dati appena creato.
- In caso contrario, fare clic su Aggiungi a progetti esistenti se si desidera aggiungere il flusso dati appena creato a una cartella di progetto esistente.
- Se nel campo Crea nuovo progetto è stata selezionata l'opzione precedente, immettere il nome del progetto appena creato nel campo Nome progetto.
- In caso contrario, se per l'opzione precedente è stata selezionata l'opzione Aggiungi a progetti esistenti, selezionare il progetto richiesto dalla freccia dell'elenco a discesa Nome progetto.
- Nel campo Descrizione, immettere una descrizione per il flusso di dati appena creato.
- Fare clic su Crea.
Dalla pagina Flussi di dati in un progetto
Per creare un flusso di dati dalla pagina Flussi di dati all'interno di un progetto,
- Nella pagina Progetti fare clic sulla casella Progetto per la quale si desidera creare un nuovo flusso di dati. Viene visualizzata la pagina Dettagli progetto.
- Nella pagina Flussi di dati fare clic su Crea flusso di dati.
- Fornire il nome e la descrizione del nuovo flusso dati.
- Fare clic su Avanti.
- Per definire la connessione di origine, nell'elenco a discesa Connessione selezionare la connessione richiesta da cui si desidera aggiungere le entità dati.
- Nell'elenco a discesa Schema, tutti gli schemi corrispondenti alla connessione selezionata sono elencati in due gruppi:
- Schema esistente (quelli importati nelle trasformazioni dei dati Oracle) e
- Nuovo schema di database (quelli non ancora importati).
Selezionare lo schema che si desidera utilizzare dall'elenco a discesa. Per le connessioni allo storage degli oggetti Oracle, l'elenco a discesa Schema elenca il nome del bucket specificato nell'URL al momento della creazione della connessione.
- Fare clic su Salva.
Viene visualizzato l'editor del flusso di dati che consente di creare un nuovo flusso di dati.
Home page
Per creare un flusso di dati dalla home page,
- Nella home page, fare clic su Trasforma dati. Viene visualizzata la pagina Crea flusso dati.
- Fornire il nome e la descrizione del nuovo flusso dati.
- Selezionare un nome di progetto dall'elenco a discesa. In alternativa, fare clic sull'icona + per creare un progetto.
- Fare clic su Avanti.
- Nell'elenco a discesa Connessione selezionare la connessione richiesta da cui si desidera aggiungere le entità dati. In alternativa, fare clic sull'icona + per creare una nuova connessione.
- Nell'elenco a discesa Schema, tutti gli schemi corrispondenti alla connessione selezionata sono elencati in due gruppi:
- Schema esistente (quelli importati nelle trasformazioni dei dati Oracle) e
- Nuovo schema di database (quelli non ancora importati).
Selezionare lo schema che si desidera utilizzare dall'elenco a discesa.
- Fare clic su Salva.
Argomento padre: Informazioni sui flussi di dati
Informazioni sull'editor di Data Flow
L'editor del flusso di dati è suddiviso in cinque parti, il pannello Entità dati, la barra degli strumenti Funzioni database, lo sfondo della progettazione, il pannello Proprietà e il pannello Stato.
- Pannello Entità dati: nel pannello Entità dati vengono visualizzate le entità dati disponibili per l'utilizzo nei flussi dati. L'elenco visualizzato può essere filtrato utilizzando i campi Nome e Tag. Il pannello include opzioni che consentono di aggiungere schemi, importare entità dati, rimuovere qualsiasi schema associato al flusso di dati e aggiornare le entità dati. Per informazioni sull'utilizzo di queste opzioni, vedere Aggiungi componenti.
- Barra degli strumenti Funzioni database: la barra degli strumenti Funzioni database visualizza le funzioni del database che possono essere utilizzate nei flussi di dati. Proprio come le entità dati, è possibile trascinare e rilasciare gli strumenti di database che si desidera utilizzare sullo sfondo della progettazione. Per ulteriori informazioni, vedere Funzioni di database supportate.
- Design Canvas: lo sfondo di progettazione consente di creare la logica di trasformazione. Dopo aver aggiunto le entità dati e le funzioni di database allo sfondo della progettazione, è possibile connetterle in ordine logico per completare i flussi di dati.
- Pannello Proprietà: nel pannello Proprietà vengono visualizzate le proprietà dell'oggetto selezionato nello sfondo della progettazione. Il pannello Proprietà è raggruppato in quattro schede. Generale, Attributi, Anteprima dati, Mapping colonne e Opzioni. Non tutte le schede sono disponibili in quanto variano in base all'oggetto selezionato. Per ulteriori informazioni su queste opzioni, vedere Proprietà componente.
- Pannello stato: quando si esegue un flusso di dati, il pannello Stato mostra lo stato del job in esecuzione in background per completare la richiesta. È possibile visualizzare lo stato del job attualmente in esecuzione o lo stato dell'ultimo job. Per ulteriori informazioni sul pannello Stato, vedere Monitorare lo stato dei carichi di dati, dei flussi di dati e dei flussi di lavoro.
Dopo aver progettato il flusso di dati richiesto,
- Fare clic su
per salvare il flusso di dati creato/desegnato.
- Fare clic su
per allineare i nodi del flusso di dati progettato.
- Fare clic su
per eseguire il flusso di dati creato.
- Fare clic su
per convalidare il flusso di dati creato.
- Fare clic su
per ingrandire o ridurre al minimo il diagramma del flusso di dati creato nello sfondo della progettazione.
Argomento padre: Informazioni sui flussi di dati
Funzioni di database supportate
Oracle Data Transforms supporta varie funzioni di database che è possibile trascinare sullo sfondo della progettazione per connettere i componenti all'interno di un flusso di dati.
La barra degli strumenti Funzioni di database nell'editor Data Flow include le funzioni di database riportate di seguito che possono essere utilizzate nei flussi di dati. Per informazioni sulle funzioni del database, vedere Oracle Database SQL Language Reference.
- Trasformazione dei dati
Le opzioni disponibili sono descritte di seguito.
- Aggrega
- Espressione
- Filtra
- Entra
- Distinto
- Ricerca
- Imposta
- Ordina
- Filtro di subquery
- Funzione tabella
- Preparazione dati
Le opzioni disponibili sono descritte di seguito.
- Pulizia dati
- Sostituzione
- Binning Equi_Width
- Binning quantili
- Portare
- Ritardo
- Sostituisci
- Il machine learning
Le opzioni disponibili sono descritte di seguito.
- Previsione
- Modello di predizione
- Rilevamento valori anomali
- Vettore incorporamento testo
- Testo
Le opzioni disponibili sono descritte di seguito.
- CONTEGGIO TRANS.
- STRUMENTO DI SPESA NORMALE
- SOTTOSTR. ESPRESSIONE REG.
- SOSTITUZIONE ESPRESSIONE REGOLARE
- Somiglianza distanza di modifica
- Contiene
- Oracle Spatial and Graph
Le opzioni disponibili sono descritte di seguito.
- Dim. buffer
- Toll. buffer
- Dim. distanza
- Toll. distanza
- Più prossimo
- Semplifica
- Punto
- Strumenti codifica geografica:
Nota
Gli strumenti di codifica geografica riportati di seguito funzionano solo in un ambiente non Autonomous Database.- Codifica geografica come geometria
- Codifica geografica
- Ind. codifica geografica
- Codifica geografica per tutto
- Ind. codifica geografica per tutto
- Codifica geografica inversa
Nota
Il seguente strumento codifica geografica funziona solo in un ambiente Autonomous Database.- Cloud codifica geografica
- Join spaziale
Argomento padre: Informazioni sui flussi di dati
Aggiungere i componenti
Aggiungere le entità dati e le funzioni di database allo sfondo di progettazione e connetterle in un ordine logico per completare i flussi di dati.
- Nel pannello Entità dati fare clic su Aggiungi uno schema per aggiungere gli schemi che contengono le entità dati che si desidera utilizzare nel flusso dati.
- Nella pagina Aggiungi schema selezionare il nome della connessione e dello schema.
- Fare clic su Importa.
- Nella pagina Importa entità dati, selezionare il tipo di oggetti che si desidera importare. Scegliere un filtro/maschera se non si desidera importare ogni oggetto nello schema e fare clic su Avvia.
- Il pannello Entità dati elenca le entità dati importate. Il pannello include diverse opzioni che consentono di effettuare le operazioni riportate di seguito.
- Aggiorna entità dati: fare clic sull'icona Aggiorna
per aggiornare l'elenco visualizzato.
- Nome: consente di cercare le entità dati in base al nome.
- Tag: filtra le entità dati in base al nome della tag utilizzata.
- Importa entità dati: fare clic con il pulsante destro del mouse sullo schema per visualizzare questa opzione. Utilizzare questa opzione per importare le entità dati.
- Rimuovi schema: fare clic con il pulsante destro del mouse sull'entità dati per visualizzare questa opzione. Utilizzare questa opzione per rimuovere lo schema dalla lista. Tenere presente che questa opzione non elimina lo schema, ma rimuove solo l'associazione dello schema a questo flusso di dati.
- Aggiorna entità dati: fare clic sull'icona Aggiorna
- In modo simile, aggiungere altri schemi al flusso di dati, se necessario.
- Trascinare le entità dati necessarie che si desidera utilizzare nel flusso di dati e rilasciarle sullo sfondo della progettazione.
- Nella barra degli strumenti Funzioni di database trascinare il componente di trasformazione che si desidera utilizzare nel flusso di dati e rilasciarlo sullo sfondo della progettazione. È possibile utilizzare le variabili nel flusso di dati. Per ulteriori informazioni, vedere Usa variabili in un flusso di dati.
- Selezionare un oggetto nello sfondo della progettazione e trascinare l'icona Connettore (
) accanto a tale oggetto per connettere i componenti.
- Dopo aver salvato il flusso di dati, potrebbe essere presente un'icona di trasferimento sovrapposta su una o più connessioni del componente. Ciò indica che ODI ha rilevato un passo aggiuntivo ed è necessario spostare i dati tra i server di dati. È possibile fare clic su questa icona per visualizzare le proprietà associate a questo passo.
Argomento padre: Informazioni sui flussi di dati
Usa vettore di incorporamento testo in un flusso di dati
Data Transforms supporta l'uso del tipo di dati vettoriale e l'incorporamento di vettori in un flusso di dati. Attualmente, Data Transforms si integra con il servizio OCI Generative AI per convertire il testo di input in integrazioni vettoriali che puoi utilizzare per l'analisi dei dati e le ricerche.
Prima di utilizzare l'incorporamento di vettori in un flusso di dati, è necessario effettuare le operazioni riportate di seguito.
- Creare una connessione a Oracle Database 23ai. Per istruzioni generiche sulla creazione di una connessione nelle trasformazioni dati, vedere Utilizzo delle connessioni.
- Crea una connessione AI generativa di Oracle Cloud Infrastructure (OCI). Vedere Creare e utilizzare una connessione Oracle Cloud Infrastructure Generative AI.
Per utilizzare le integrazioni vettoriali in un flusso di dati:
- Seguire le istruzioni riportate in Crea un flusso dati per creare un nuovo flusso dati.
- Nell'Editor flussi di dati fare clic su Aggiungi uno schema per definire la connessione di origine. Nell'elenco a discesa Connessione selezionare la connessione a Oracle Database 23ai e lo schema che si desidera utilizzare dall'elenco a discesa. Fare clic su OK.
- Trascinare le tabelle che si desidera utilizzare come origine nel flusso di dati e rilasciarle sullo sfondo della progettazione.
- Nella barra degli strumenti Funzioni database, fare clic su Machine Learning e trascinare il componente di trasformazione Integrazione testo nello sfondo della progettazione.
- Fare clic sul componente di trasformazione Vettore di incorporamento testo per visualizzarne le proprietà.
- Nella scheda Generale, specificare quanto segue:
- Servizio AI: selezionare AI generativa OCI dall'elenco a discesa.
- Connessione: nell'elenco a discesa sono elencate tutte le connessioni disponibili per il servizio AI selezionato. Selezionare la connessione Oracle Database 23 ai che si desidera utilizzare.
- Modello AI: nell'elenco a discesa sono elencati tutti i modelli disponibili per il servizio AI e la connessione selezionati. Sono elencati i seguenti modelli:
- "cohere.embed-english-light-v2.0"
- "cohere.embed-english-light-v3.0"
- "cohere.embed-english-v3.0"
- "cohere.embed-luce-multilingua-v3.0"
- "cohere.embed-multilingue-v3.0"
- Nella scheda Mapping colonne mappare la colonna di origine che si desidera incorporare all'attributo INPUT dell'operatore. L'unica colonna disponibile nei mapping delle colonne è
input_text
. Trascinare una colonna di testo dalle colonne disponibili nella colonna Espressione. Questi sono i dati su cui verranno costruiti i vettori. - Trascinare la tabella che si desidera utilizzare come destinazione nel flusso di dati e rilasciarla sullo sfondo della progettazione.
- Salvare ed eseguire il flusso dati.
Le trasformazioni dei dati genereranno vettori per ciascuna delle righe nella tabella di origine e li scriveranno nella tabella di destinazione.
Argomento padre: Informazioni sui flussi di dati
Proprietà componente
Il pannello Proprietà visualizza varie impostazioni per i componenti selezionati nell'area di disegno.
A seconda del componente selezionato, è possibile che venga visualizzata una delle seguenti icone:
- Generale (
): visualizza il nome del componente insieme ai relativi dettagli di connessione e schema. È possibile modificare alcune di queste proprietà.
- Attributi (
): visualizza i dettagli di tutti gli attributi associati al componente.
- Mapping colonne (
): consente di mappare automaticamente tutte le colonne. Per ulteriori informazioni, vedere Mappa colonne dati.
- Anteprima (
) - Visualizza un'anteprima del componente. Per le tabelle Oracle è inoltre possibile visualizzare le statistiche dell'entità dati selezionata. Per informazioni dettagliate sulle informazioni statistiche disponibili, vedere Visualizza statistiche delle entità dati.
- Opzioni (
) - Visualizza opzioni quali
- Tronca tabella: sostituisce qualsiasi contenuto di tabella di destinazione esistente con nuovi dati.
- Aggiungi - inserisce i record dal flusso nella destinazione. I record esistenti non vengono aggiornati.
- Incrementale: integra i dati nella tabella di destinazione confrontando i record del flusso con i record esistenti e aggiornando i record quando i dati associati non sono uguali. Vengono inseriti quelli che non esistono ancora nella destinazione.
Questa opzione include una funzione di compressione automatica impostata su
True
per impostazione predefinita. Per i job del flusso di dati che utilizzano la modalità Aggiornamento incrementale per caricare i dati in una partizione di destinazione Oracle compressa, la funzione di compressione automatica comprime di nuovo le partizioni di destinazione modificate al termine del caricamento. Per le partizioni di tabella non originariamente compresse, la compressione viene saltata indipendentemente dal fatto che la compressione automatica sia impostata su true.Nota
L'opzione di compressione automatica è disponibile per l'utente ADMIN o per un utente con ruolo DWROLE. Per i flussi di dati con utenti dello schema diversi da ADMIN, è necessario assegnare DWROLE all'utente o disabilitare la compressione automatica per evitare errori di esecuzione.
Argomento padre: Informazioni sui flussi di dati
Mappa colonne dati
Quando si connette l'entità dati di origine all'entità dati di destinazione, i nomi delle colonne vengono mappati automaticamente dai nomi delle colonne. È possibile mappare le colonne in base alla posizione o al nome oppure mapparle manualmente utilizzando l'Editor espressioni.
Per mappare le colonne in base alla posizione o al nome:
- Selezionare l'entità dati di destinazione.
- Fare clic sull'icona a forma di freccia presente nell'angolo superiore destro per espandere il pannello Proprietà. Questo vi darà più spazio per lavorare con.
- Nel pannello Proprietà fare clic sull'icona Mapping colonne (
).
- Per mappare le colonne per posizione o per nome, dal menu a discesa Mappa automatica selezionare Per posizione o Per nome.
Per mappare manualmente le colonne, effettuare le operazioni riportate di seguito.
- Dal menu a discesa Mappa automatica, selezionare Cancella per cancellare i mapping esistenti.
- Trascinare e rilasciare gli attributi dall'albero a sinistra per eseguire il mapping con la colonna Espressione.
- Per modificare un'espressione, fare clic sull'icona Modifica della colonna corrispondente. Viene visualizzato l'Editor espressioni che consente di eseguire le modifiche necessarie (ad esempio, è possibile aggiungere un'espressione - "UPPER" o aprire l'Editor espressioni per modificare l'espressione).
Nota
Utilizzare l'editor espressioni solo se sono presenti espressioni complesse per una determinata colonna. - Fare clic su OK.
Argomento padre: Informazioni sui flussi di dati
Convalida ed esegui flusso dati
Una volta pronti i mapping, è possibile procedere alla convalida e all'esecuzione del flusso di dati.
- Fare clic su Salva.
Dopo il salvataggio, se è necessario posizionare i dati nell'area intermedia prima della trasformazione, il pulsante Trasferisci viene aggiunto a uno o più collegamenti. È possibile fare clic su questi pulsanti per impostare ulteriori opzioni, se disponibili.
- Fare clic sull'icona Simulazione codice (
) se si desidera controllare il codice che verrà eseguito per completare i task eseguiti quando si esegue il job del flusso dati. I dettagli di origine e destinazione vengono visualizzati in colori diversi per facilitarne il riferimento. Questa operazione è utile se si desidera verificare se il mapping è corretto prima di eseguire il job o se il job non riesce. Si noti che il codice non può essere utilizzato per il debug. Per informazioni dettagliate sulla mansione, vedere la pagina Dettagli mansione.
- Fare clic sull'icona Convalida (
) nella barra degli strumenti sopra lo sfondo della progettazione per convalidare il flusso di dati.
- Dopo una convalida riuscita, fare clic sull'icona Esegui (
) accanto all'icona Convalida per eseguire il flusso di dati.
Se sono state aggiunte variabili al flusso di dati, viene visualizzata la pagina Valori variabili che visualizza l'elenco delle variabili aggiunte al flusso di dati. È possibile scegliere di utilizzare il valore corrente, il valore predefinito o impostare un valore personalizzato per ogni variabile. Si noti che il valore personalizzato viene applicato solo all'esecuzione corrente del flusso di dati. Il valore personalizzato non è persistente per le sessioni successive.
Viene visualizzato un messaggio che visualizza l'ID e il nome del job di esecuzione. Per controllare lo stato del flusso di dati, vedere il pannello Stato a destra sotto il pannello Proprietà. Per informazioni dettagliate sul pannello Stato, vedere Monitorare lo stato dei carichi di dati, dei flussi di dati e dei flussi di lavoro. In questo pannello viene inoltre visualizzato il collegamento all'ID job su cui è possibile fare clic per monitorare l'avanzamento nella pagina Job. Per ulteriori informazioni, vedere Creare e gestire i job.
Per i flussi di dati creati utilizzando le connessioni allo storage degli oggetti Oracle, i dati del file CSV di origine vengono caricati nell'Oracle Autonomous Database di destinazione. È inoltre possibile esportare i dati da una tabella di Oracle Autonomous Database in un file CSV in Oracle Object Storage.
Argomento padre: Informazioni sui flussi di dati