Panoramica derivazione dati
La derivazione dei dati indica il percorso intrapreso dai dati durante il flusso dalle origini dati al consumo. Attraverso i metadati, i consumatori di dati possono comprendere e visualizzare le trasformazioni che i dati hanno attraversato nelle pipeline di dati.
Origini dati supportate per derivazione
In Data Catalog, la derivazione è supportata per le origini dati seguenti:
- Database Apache Hive
- Autonomous Data Warehouse
- Autonomous Transaction Processing
- IBM DB2
- Database Microsoft Azure SQL
- Database Microsoft SQL Server
- Database MySQL
- Oracle Database
- Oracle Object Storage
- PostgreSQL
Derivazione dei dati
In Data Catalog è possibile visualizzare la derivazione per le entità e i relativi attributi. Ad esempio, derivazione a livello di tabella e colonna. La derivazione è disponibile per i dati elaborati dalle applicazioni di integrazione dati, dalle applicazioni di flusso dati o dalle applicazioni personalizzate. Ciascuno richiede l'impostazione della configurazione come spiegato nelle sezioni riportate di seguito.
Derivazione dati per integrazione dati
Per visualizzare la derivazione in Data Catalog, è necessario effettuare le operazioni riportate di seguito.
- Selezionare la casella di controllo Genera derivazione dati nella configurazione dell'applicazione nell'area di lavoro di OCI Data Integration per generare i metadati di derivazione.
- Creare un asset dati OCI Data Integration per l'area di lavoro Data Integration in Data Catalog. Vedere Criteri IAM obbligatori per l'asset dati di Data Integration e Asset dati di Data Integration.
Quando Data Catalog recupera le informazioni di derivazione dall'area di lavoro Integrazione dati, contiene informazioni sugli asset dati e sui task eseguiti nelle applicazioni. In base alle informazioni sulla derivazione, se nel catalogo non è presente alcun asset dati corrispondente, Data Catalog crea tale asset dati. Il nome di questo asset dati è uguale a quello definito nell'area di lavoro Integrazione dati.
-
La derivazione è disponibile solo per i dati elaborati dai task di integrazione e dal programma di caricamento dati nell'area di lavoro Integrazione dati.
-
La derivazione a livello di colonna non è disponibile per i task con gli operatori Appiattisci, Pivot e Funzione.
Derivazione dati per flusso dati
Per visualizzare la derivazione per l'applicazione in Data Flow, selezionare la casella di controllo Abilita raccolta derivazione dati nella configurazione dell'applicazione nell'area di lavoro di OCI Data Flow per generare i metadati di derivazione. Viene creato automaticamente un asset dati in Data Catalog per il servizio Flusso dati nella stessa tenancy alla prima esecuzione del push dei metadati di derivazione nel catalogo. Il nome di questo asset dati è nel formato Flusso di dati OCI - <tenancy name>. Vedere Criteri IAM obbligatori per l'asset dati del flusso di dati e Flusso di dati.
Per acquisire la derivazione per le applicazioni in esecuzione in Data Flow su una tenancy separata, è necessario creare un asset dati per tale servizio di Data Flow. Assicurarsi di impostare i criteri riportati di seguito.
L'asset dati Flusso dati viene aggiornato a intervalli preimpostati quando la derivazione viene aggiornata in Flusso dati.
Inclusione derivazione personalizzata
Data Catalog consente di estendere la funzionalità di derivazione fornendo metadati di derivazione per i dati elaborati/trasformati in applicazioni che Data Catalog non supporta in modo nativo per la raccolta di derivazione. Ciò viene ottenuto utilizzando l'API ImportLineage
.
-
Creazione di cespiti dati per provider derivazione personalizzato: è necessario creare un asset dati per ogni provider derivazione personalizzato. È importante notare la chiave dell'asset dati di tali asset dati in quanto vengono utilizzati per identificare il provider di derivazione nell'API
ImportLineage
. -
Inserimento di derivazione personalizzata nel catalogo: è possibile includere metadati di derivazione nel catalogo per i dati elaborati nelle applicazioni o in altri motori di elaborazione dati non supportati in modo nativo per la raccolta di derivazione dal servizio Data Catalog OCI. Supportiamo l'inclusione del lignaggio dalle applicazioni Spark.
L'API
ImportLineage
accetta il payload derivazione in un formato compatibile conopenLineage
. Per ulteriori dettagli sull'interfaccia API, vedere ImportLineage. -
Visualizzazione della derivazione inclusa personalizzata in un grafico di derivazione: nel grafico di derivazione di un'entità dati, gli utenti possono utilizzare un'opzione di attivazione/disattivazione nell'interfaccia utente per evidenziare i percorsi forniti dai provider di derivazione personalizzati utilizzando l'API
ImportLineage
.
Visualizzazione della derivazione dati per un'entità
La derivazione rappresenta il flusso di dati dall'origine a questa entità di destinazione.
Se accanto al nome di un asset dati appena creato o alle relative cartelle ed entità viene visualizzata un'icona di avvertenza, è necessario creare una connessione per raccogliere le cartelle e le entità. Ciò garantisce che tutti gli attributi delle entità siano disponibili nel catalogo poiché i metadati di derivazione potrebbero contenere solo attributi che contribuiscono alla derivazione.
- Nel campo Cerca della scheda Home, immettere il nome dell'entità.
- Nella pagina dei risultati della ricerca, selezionare l'entità richiesta.
- Nella pagina dei dettagli dell'entità, fare clic sulla scheda Derivazione.
Nel grafico di derivazione, l'entità su cui si avvia la derivazione viene identificata da un'icona di ancoraggio. L'oggetto di ancoraggio può essere visualizzato in qualsiasi punto del grafico di derivazione. Il lato sinistro di questo oggetto di ancoraggio mostra la derivazione e il lato destro indica l'impatto.
Questo task non può essere eseguito utilizzando l'interfaccia CLI.
Eseguire l'operazione FetchEntityLineage per recuperare la derivazione per un'entità.
Visualizzazione grafico derivazione
Il grafico di derivazione contiene nodi di processo e nodi dati collegati da linee per indicare il flusso:
- Processo: rappresenta gli oggetti task Integrazione dati, le applicazioni Flusso dati o le applicazioni personalizzate. Quando si fa clic su un nodo di processo, è possibile trovare il menu Azioni.
Per Data Integration, fare clic su Apri in Data Integration per visualizzare i dettagli del task di Data Integration eseguito nella console di Data Integration.
Per le applicazioni Flusso dati, fare clic su Apri in flusso dati per visualizzare i dettagli dell'applicazione nella console Flusso dati. Se le applicazioni si trovano in una tenancy diversa, è necessario collegarsi alla tenancy OCI diversa. A tale scopo, copiare il collegamento e aprirlo in una finestra separata del browser.
Dati: rappresenta gli oggetti Data Catalog. È possibile espandere questi nodi per visualizzare la derivazione a livello di colonna. Quando si fa clic sull'icona di un nodo dati, è possibile trovare il menu Azioni. Fare clic su Mostra riepilogo oggetto per visualizzare il riepilogo dell'oggetto Data Catalog in una nuova scheda.Nota
Se Data Catalog non esegue il mapping accurato di un asset dati da Data Integration, è possibile che venga rilevato un asset dati duplicato nel grafico di derivazione.
I nodi derivazione non sono visibili nel browser Safari.
Abilitare l'opzione Mostra pannello proprietà per visualizzare dettagli quali Nome, Percorso e Descrizione per un nodo selezionato.
- La derivazione a livello di entità
- Le colonne, espandendo l'entità
- La derivazione a livello di colonna di una colonna selezionando la colonna