Lineage (anteprima)

11 Linea (anteprima)

La derivazione in Oracle AI Data Platform Workbench mostra come gli artifact dei dati sono correlati attraverso le esecuzioni di notebook e flussi di lavoro. Il grafico di derivazione consente di tracciare le origini a monte, i consumer a valle e le derivazioni a livello di colonna per gli artifact supportati.

Nota

I metadati di derivazione vengono acquisiti dalle esecuzioni di notebook e workflow. Per ogni esecuzione del processo, il servizio visualizza attualmente la derivazione acquisita più recente e non espone ancora la derivazione storica.

L'acquisizione della derivazione è abilitata o disabilitata a livello di computazione nell'ambito della configurazione Spark. Per impostazione predefinita, la derivazione è abilitata in qualsiasi computazione creata. Per disabilitare manualmente la derivazione, aggiungi spark.aidp.lineage.enabled = false al campo di configurazione Spark nella tua computazione, sotto Opzioni avanzate. Per riabilitare la derivazione, utilizzare spark.aidp.lineage.enabled = true. Questa impostazione è specifica per la computazione, il che significa che se si disabilita la derivazione in un'unica computazione, i flussi di lavoro vengono eseguiti in un'altra computazione in cui la derivazione è ancora abilitata vengono comunque acquisiti.

È possibile visualizzare la derivazione degli artifact di AI Data Platform dal catalogo principale facendo clic con il pulsante destro del mouse su un artifact e selezionando Linea. È possibile visualizzare la derivazione di qualsiasi artifact di dati in AI Data Platform, ad esempio tabelle e volumi. Lineage attualmente supporta le tabelle come nodi di ancoraggio, ma visualizza sia le tabelle che i volumi come parte del diagramma di derivazione.

Nella vista derivazione viene visualizzato un grafico di derivazione con artifact a monte e a valle per l'artifact dati selezionato. È possibile passare dal grafico completo alla vista solo a monte e alla vista solo a valle.

Barra del Navigator del diagramma di derivazione. Il menu a discesa a valle, a monte, al grafico di derivazione, all'ancora e allo zoom è indicato dal testo in rosso.

È possibile visualizzare la derivazione a livello di colonna per tracciare la modalità di derivazione, trasformazione o propagazione delle colonne in un artifact dati in un altro artifact.

È possibile nascondere i filtri nella parte superiore dello sfondo facendo clic sull'icona Filtro nella parte superiore sinistra.

Per espandere gli artifact di dati nel flusso di derivazione, fare clic sulla freccia giù nella parte inferiore della scheda artifact. Quando l'artifact si espande, è possibile visualizzare l'ereditarietà a monte e a valle di colonne di dati specifiche. Questa funzione funziona solo per gli artifact che contengono colonne di dati, ad esempio tabelle e volumi.

Viene visualizzato il diagramma di derivazione. Il nodo tabella content_engagement è selezionato ed espanso.

Per le schede artifact espanse, è possibile espandere una tabella o un volume per visualizzarne le colonne e le relazioni di derivazione a livello di colonna ad esse connesse. Per espandere gli artifact di dati nel flusso di derivazione, fare clic sulla freccia giù nella parte inferiore della scheda artifact. Quando l'artifact si espande, è possibile visualizzare il flusso di dati a monte e a valle per colonne specifiche. Questa funzione funziona solo per gli artifact che contengono colonne di dati, ad esempio tabelle e volumi.

È possibile espandere più tabelle e volumi nel grafico di derivazione per visualizzare il flusso di dati da ciascuno di essi. Quando si espande l'artifact dati, le frecce blu mostrano come le colonne negli artifact di origine contribuiscono alle colonne negli artifact di destinazione tramite le esecuzioni del notebook o del workflow. È possibile evidenziare il percorso di una singola colonna facendo doppio clic su di essa.

Le frecce blu mostrano le relazioni di derivazione a livello di colonna tra le colonne di origine e di destinazione. Queste relazioni indicano la modalità di derivazione, trasformazione o propagazione dei dati tra tabelle, volumi, notebook, task e flussi di lavoro. Fare doppio clic su una colonna per evidenziarne il percorso di derivazione nel grafico.

Viene visualizzato il diagramma di derivazione. Il nodo content_engagement è espanso e la colonna dati engagement_date è selezionata. Le frecce blu scuro connettono la colonna dati ai nodi a monte e a valle.

È possibile selezionare più colonne di dati facendo clic su Maiusc o Ctrl per evidenziare più percorsi.

Dal menu Azioni nella parte superiore destra della finestra Lineage, è possibile controllare le impostazioni Lineage, che influiscono sulla profondità degli artifact a monte e a valle visualizzati, oppure è possibile condividere il diagramma di derivazione copiando un collegamento o esportando un'immagine PNG.

Pulsante Azioni derivazione espanso che mostra le impostazioni derivazione, il collegamento Copia ed Esporta le opzioni della vista derivazione corrente.

Dettagli derivazione

Facendo doppio clic su un artifact nel diagramma di derivazione vengono visualizzati i dettagli relativi all'artifact. Per i task, la pagina dei dettagli fornisce sia i dettagli per il task che per il job a cui appartiene. Per le tabelle e i volumi, la pagina dei dettagli fornisce informazioni sulla tabella o sul volume e sulle relative colonne.

È possibile fare clic con il pulsante destro del mouse sugli artifact dati in Visualizza dettagli o Imposta come ancoraggio. L'impostazione dell'artifact dati come ancoraggio modifica invece il diagramma visualizzato per centrare il nodo.

Nella parte superiore della finestra Dettagli è possibile visualizzare il tipo di artifact, lo schema a cui appartiene e il numero di artifact a monte e a valle. Nel riquadro Descrizione, fare clic sul collegamento Attività per accedere all'artifact nell'area di lavoro.

Viene visualizzata la pagina Dettagli derivazione per il nodo content_engagement_clean. La scheda Dettagli è selezionata.

Per gli artifact dati, la finestra Dettagli mostra l'ultimo aggiornamento dell'artifact, le informazioni sulle colonne dati, il formato e il catalogo a cui appartiene l'artifact dati. È possibile cercare colonne di dati specifiche per nome e filtrare per tipo di dati utilizzando il menu a discesa.

Per gli artifact di processo, che includono task e notebook, nella finestra Dettagli vengono visualizzate le informazioni relative all'artifact, inclusi lo stato più recente del task e del job, la durata, il tipo di task, il nome e l'ID del job o del notebook e il cluster collegato. Nel riquadro destro è possibile cercare gli artifact di origine e di destinazione in base al nome dell'artifact oppure utilizzare il menu a discesa per filtrare il tipo di trasformazione.

Tipi di trasformazione

AI Data Platform Workbench supporta i seguenti tipi di trasformazione durante il tracciamento della derivazione:

Type	Significato	Scenario di esempio	Mapping campi di esempio
AGGREGAZIONE	Il campo di output viene calcolato aggregando più record di input.	Creazione di tabelle o metriche di riepilogo.	total_sales = SUM(importo)
IDENTITÀ	Il campo di output è esattamente lo stesso del campo di input (nessuna modifica).	Copia di un set di dati da una tabella all'altra.	customer_id → customer_id
TRASFORMAZIONE	L'output deriva dai campi di input che utilizzano funzioni, grafici, concatenazioni e così via.	Standardizzazione o pulizia dei dati.	full_name = CONCAT(nome_primo, ', cognome)

Analisi impatto

Gli artifact dati selezionati come nodo di ancoraggio dispongono di una scheda aggiuntiva nella finestra Dettagli per l'analisi dell'impatto. Nella scheda Analisi impatto è possibile cercare nomi di artifact specifici o filtrare in base al tipo di artifact. È possibile selezionare A monte o a valle per visualizzare solo gli artifact a monte o a valle dell'artifact attualmente selezionato.

Utilizza l'analisi dell'impatto a monte per comprendere le dipendenze. Utilizzare l'analisi dell'impatto a valle per identificare i consumer che potrebbero essere interessati dalle modifiche apportate all'artifact selezionato.

Fare clic su Esporta analisi importazione per esportare gli artifact correlati all'artifact dati selezionato. È possibile esportare artifact a monte, artifact a valle o tutti gli artifact correlati.

Derivazione entità e colonna

In alcuni scenari di derivazione in cui più set di dati a monte partecipano alla produzione di un set di dati di destinazione, solo alcuni di questi set di dati a monte contribuiscono ai valori di colonna effettivi nella destinazione.

La distinzione chiave tra derivazione entità e derivazione colonna è la domanda a cui rispondono:

Risposte derivazione entità: quali set di dati hanno partecipato alla creazione della destinazione?
Risposte derivazione colonna: quali colonne di origine hanno fornito i valori delle colonne di destinazione?

Poiché queste domande sono diverse, la derivazione dell'entità e la derivazione della colonna possono avere un aspetto diverso per la stessa pipeline.

In alcune trasformazioni, un input fornisce le righe e i valori di colonna scritti nella destinazione, mentre un altro input viene utilizzato solo come riferimento per la filtrazione. In questi casi:

La linea entità deve mostrare tutti i set di dati a monte da cui dipende la destinazione.
Linea colonna può mostrare il flusso a livello di colonna solo dall'input che fornisce valore.
Un input di riferimento può influire sul set di righe target senza fornire valori alle colonne target.

Questo comportamento è previsto.

Esempio: derivazione di entità e colonne

Si supponga che due set di dati di origine contengano le stesse colonne, ma non le stesse righe:

source_table_1 contiene il set di dati principale.
source_table_2 contiene un set di riferimenti di righe.
La tabella di destinazione viene creata conservando solo le righe esistenti in entrambe le tabelle di origine.

Ad esempio:

Tabella 11-1 source_table_1

ID_prodotto	data_vendite	quantità	totale_importo
101	01-06-2025	10	150
102	02/06/2025	20	300
103	03-06-2025	15	225
104	04-06-2025	12	180

Tabella 11-2 source_table_2

ID_prodotto	data_vendite	quantità	totale_importo
102	02/06/2025	20	300
103	03-06-2025	15	225
105	05-06-2025	18	270

Tabella 11-3 target_table

ID_prodotto	data_vendite	quantità	totale_importo
102	02/06/2025	20	300
103	03-06-2025	15	225

In questo esempio, entrambe le tabelle di origine partecipano alla creazione della destinazione perché entrambe sono necessarie per determinare la serie di righe finale.

Lo sfondo della derivazione viene visualizzato con i nodi source_table_1 e source_table_2 connessi al nodo ipynb instersect connesso al nodo target_table.

Tuttavia, dal punto di vista della derivazione della colonna, i valori della colonna target possono essere attribuiti solo all'input che fornisce valore, ad esempio source_table_1. Il secondo input, source_table_2, viene utilizzato per determinare quali righe sono idonee per la destinazione, ma i relativi valori non vengono necessariamente copiati nelle colonne di destinazione.

Sfondo di derivazione con nodo source_table_1 espanso e frecce blu che collegano le colonne al nodo notebook instersect, collegato alle quattro colonne ereditate da target_table

Per questi motivi, quando la vista derivazione è ancorata a source_table_2, non vengono visualizzati collegamenti di derivazione a livello di colonna, come mostrato di seguito.

Sfondo di derivazione che mostra source_table_2 come nodo di ancoraggio e nessun collegamento di derivazione a livello di colonna che lo collega a target_table.

Perché la derivazione entità mostra entrambi gli input

La derivazione entità acquisisce la dipendenza a livello di set di dati. Se un job di elaborazione legge due set di dati e il risultato dipende da entrambi, entrambi i set di dati sono entità legittime a monte. In questo modello:

Impossibile spiegare completamente la destinazione senza il set di dati di origine A.
Anche la destinazione non può essere spiegata completamente senza il set di dati di origine B, perché il set di dati di origine B determina quali record del set di dati di origine A vengono conservati.
Pertanto, sia il set di dati di origine A che il set di dati di origine B devono essere visualizzati come entità a monte per il set di dati di destinazione C.

Questa è la derivazione della dipendenza, non la derivazione del valore.

Perché la derivazione colonna mostra solo l'input che fornisce valore

La derivazione della colonna acquisisce la provenienza del valore. Descrive da dove provengono i valori in ogni colonna di destinazione.

Ad esempio, se la tabella di destinazione viene scritta utilizzando le righe del data set di origine A dopo aver filtrato le righe dal data set di origine B, i valori delle colonne di destinazione provengono ancora dal data set di origine A.

Mapping colonne di esempio:

Colonna di destinazione	Colonna di origine
`target.product_id`	`source_a.product_id`
`target.sales_date`	`source_a.sales_date`
`target.quantity`	`source_a.quantity`
`target.total_amount`	`source_a.total_amount`

Il set di dati di origine B influisce sulla presenza di una riga, ma i relativi valori di colonna non vengono copiati nella destinazione. Di conseguenza, il set di dati di origine B può essere visualizzato nella derivazione dell'entità mentre non è visualizzato nella derivazione della colonna.

Visualizza derivazione dati

È possibile visualizzare l'ereditarietà dei dati nell'area di lavoro mentre si sposta tra i diversi artifact di Oracle AI Data Platform Workbench.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Linea. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Viene visualizzato il diagramma di derivazione.

Visualizza derivazione per colonne dati specifiche

È possibile tracciare la derivazione di una colonna di dati specifica tramite il diagramma della derivazione.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Linea. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Fare clic sulla freccia nella parte inferiore di una tabella o di un artifact di volume per espanderlo.
Fare doppio clic sulla colonna di dati per la quale si desidera evidenziare la derivazione.

Visualizza dettagli per un artifact derivazione

È possibile visualizzare ulteriori dettagli per un artifact nei diagrammi di derivazione.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Derivata. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Fare doppio clic su un artifact nel diagramma della derivazione per visualizzare ulteriori dettagli. È inoltre possibile fare clic con il pulsante destro del mouse e fare clic su Visualizza dettagli.
Fare clic sulla scheda Analisi impatto per visualizzare l'impatto a monte e a valle dell'artifact. Questa scheda è disponibile solo per il nodo ancoraggio.

Esporta analisi impatto

È possibile esportare l'analisi dell'impatto per gli artifact di dati durante la visualizzazione dei dettagli di un artifact di derivazione.

Nota

È possibile esportare l'analisi dell'impatto solo per gli artifact di dati.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Derivata. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Fare doppio clic su un artifact di dati nel diagramma della derivazione. Selezionare la scheda Analisi impatto.
Fare clic su Esporta analisi impatto.
Dal menu a discesa, selezionare se includere a monte, a valle o tutti gli artifact.
Fare clic su Esporta.

Diagramma flusso linea filtro

È possibile filtrare il diagramma di derivazione per concentrarsi su datapoint più specifici durante l'esame della derivazione.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Linea. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Dai menu a discesa, selezionare cataloghi, schemi, volumi o aree di lavoro specifici da cui filtrare i risultati.

Cerca gli artifact nel diagramma di flusso della derivazione

È possibile cercare stringhe per individuare artifact specifici nel diagramma derivazione durante la visualizzazione della derivazione degli artifact.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Linea. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Nel campo Cerca nella parte superiore del diagramma della derivazione, immettere la stringa da cercare.
Fare clic su un risultato nell'elenco per centrare il diagramma sull'artifact.

Modifica profondità flusso derivazione

È possibile modificare il numero di livelli di artifact a monte o a valle visualizzati nel diagramma di derivazione per facilitare l'espansione o la riduzione dello stato attivo del diagramma.

Passare all'artifact nel catalogo principale per il quale si desidera visualizzare la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Linea. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Fare clic su Azioni in alto a destra
Fare clic su Impostazioni derivazione.
Modificare la profondità a monte e la profondità a valle in base alle esigenze.
Fare clic su Save.

Condividi diagramma flusso di derivazione

È possibile condividere il diagramma di derivazione che mostra la derivazione di un oggetto specifico come collegamento diretto o immagine PNG.

Passare all'artifact nel catalogo principale per il quale si desidera condividere la derivazione.
Fare clic con il pulsante destro del mouse sull'artifact, quindi fare clic su Derivata. È inoltre possibile selezionare l'artifact e fare clic su Azioni in alto a destra, quindi fare clic su Linea.
Fare clic su Azioni in alto a destra.
Scegli come vuoi condividere il tuo diagramma di derivazione:
- Fare clic su Copia collegamento per copiare un collegamento direttamente negli Appunti. Incollare il collegamento per condividerlo.
- Fare clic su Esporta vista derivazione corrente (.png) per esportare la vista corrente del diagramma derivazione, inclusi i filtri applicati.