11 Linhagem (Visualização)

A linhagem no Oracle AI Data Platform Workbench mostra como os artefatos de dados são relacionados por meio de execuções de notebook e workflow. O gráfico de linhagem ajuda a rastrear origens upstream, consumidores downstream e derivações no nível da coluna para artefatos suportados.

Observação:

Os metadados de linhagem são capturados das execuções de notebook e workflow. Para cada execução de processo, o serviço atualmente exibe a linhagem capturada mais recente e ainda não expõe a linhagem histórica.

A captura de linhagem está ativada ou desativada no nível de computação como parte da configuração do Spark. Por padrão, a linhagem é ativada em qualquer computação que você criar. Para desativar manualmente a linhagem, adicione spark.aidp.lineage.enabled = false ao campo de configuração do Spark em sua computação, em Opções avançadas. Para reativar a linhagem, use spark.aidp.lineage.enabled = true. Essa definição é específica de computação, ou seja, se você desativar a linhagem em uma computação, os workflows executados em outra computação em que a linhagem ainda está ativada ainda serão capturados.

Você pode exibir a linhagem de artefatos do AI Data Platform no Catálogo Mestre clicando com o botão direito do mouse em um artefato e selecionando Linhagem. Você pode exibir a linhagem de qualquer artefato de dados na AI Data Platform, como tabelas e volumes. Atualmente, a linhagem suporta tabelas como nós de âncora, mas exibe tabelas e volumes como parte do diagrama de linhagem.


Diagrama de linhagem.

A view Linhagem exibe um gráfico de linhagem com artefatos de upstream e downstream para o artefato de dados selecionado. Você pode alternar entre o gráfico completo, a exibição somente upstream e a exibição somente downstream.


Barra do navegador do diagrama de linhagem. Downstream, upstream, gráfico de linhagem, âncora e menu suspenso de zoom são indicados por texto vermelho.

Você pode exibir a linhagem no nível da coluna para rastrear como as colunas em um artefato de dados são derivadas, transformadas ou propagadas para colunas em outros artefatos.

Você pode ocultar os filtros na parte superior da tela clicando no ícone Filtro na parte superior esquerda.


Barra de filtro do diagrama de linhagem.

Você expande artefatos de dados em seu fluxo de Linhagem clicando na seta para baixo na parte inferior do cartão de artefato. Quando o artefato está se expandindo, você pode ver a herança upstream e downstream de colunas de dados específicas. Essa função só funciona para artefatos que contêm colunas de dados, como tabelas e volumes.


O diagrama de linhagem é exibido. O content_engagement do nó da tabela é selecionado e expandido.

Para cartões de artefato expandidos, você expande uma tabela ou volume para exibir suas colunas e os relacionamentos de linhagem no nível da coluna conectados a eles. Você expande artefatos de dados em seu fluxo de Linhagem clicando na seta para baixo na parte inferior do cartão de artefato. Quando o artefato está se expandindo, você pode ver fluxos de dados de upstream e downstream para colunas específicas. Essa função só funciona para artefatos que contêm colunas de dados, como tabelas e volumes.

Você pode expandir várias tabelas e volumes em seu gráfico de linhagem para ver o fluxo de dados de cada uma. Quando você expande o artefato de dados, as setas azuis mostram como as colunas nos artefatos de origem contribuem para as colunas nos artefatos de destino por meio de execuções de notebook ou workflow. Você realça o caminho de uma coluna individual clicando duas vezes nela.

As setas azuis mostram relacionamentos de linhagem no nível da coluna entre as colunas de origem e de destino. Esses relacionamentos indicam como os dados são derivados, transformados ou propagados entre tabelas, volumes, notebooks, tarefas e workflows. Clique duas vezes em uma coluna para realçar seu caminho de linhagem no gráfico.


O diagrama de linhagem é exibido. O nó content_engagement é expandido e a coluna de dados engagement_date é selecionada. As setas azuis escuras conectam a coluna de dados aos nós upstream e downstream.

Você pode selecionar várias colunas de dados clicando em Shift ou Ctrl para realçar vários caminhos.

No menu Ações, no canto superior direito da janela Linhagem, você pode controlar suas configurações de Linhagem, o que afeta a profundidade dos artefatos de upstream e downstream exibidos, ou pode compartilhar seu diagrama de linhagem, copiando um link ou exportando uma imagem PNG.


Botão de ações de linhagem expandido e mostrando as configurações de Linhagem, Copiar link e Exportar opções de exibição de linhagem atual.

Detalhes da Linhagem

Clicar duas vezes em um artefato no diagrama de linhagem mostra detalhes desse artefato. Para tarefas, a página de detalhes fornece os detalhes da tarefa e do job ao qual ela pertence. Para tabelas e volumes, a página de detalhes fornece informações sobre a tabela ou o volume e suas colunas.

Você pode clicar com o botão direito do mouse em artefatos de dados para Exibir Detalhes ou Definir como Âncora. Definir o artefato de dados como âncora altera o diagrama exibido no momento para centralizar nesse nó.

Na parte superior da janela Detalhes, você pode ver o tipo de artefato, o esquema ao qual ele pertence e o número de artefatos upstream e downstream. No painel Descrição, clicar no link Ativo leva você ao artefato em seu espaço de trabalho.


A página de detalhes da linhagem do nó content_engagement_clean é exibida. A guia Detalhes está selecionada.

Para artefatos de Dados, a janela Detalhes mostra quando o artefato foi atualizado pela última vez, informações sobre colunas de dados, formato e o catálogo ao qual o artefato de dados pertence. Você pode procurar colunas de dados específicas por nome e filtrar por tipo de dados usando o menu drop-down.

Para artefatos do Processo, que incluem tarefas e notebooks, a janela Detalhes exibe informações relacionadas ao artefato, incluindo a tarefa mais recente e o status do job, a duração, o tipo de tarefa, o nome e o ID do job ou notebook e o cluster anexado. No painel direito, você pode procurar artefatos de origem e destino com base no nome do artefato ou usando o menu drop-down para filtrar o tipo de transformação.

Tipos de Transformação

O AI Data Platform Workbench suporta os seguintes tipos de transformação ao rastrear a linhagem:

Tipo Definição Exemplo de Cenário Exemplo de Mapeamento de Campo
AGREGAÇÃO O campo de saída é calculado pela agregação de vários registros de entrada. Criando tabelas ou métricas resumidas. total_sales = SUM(valor)
IDENTIDADE O campo de saída é exatamente o mesmo que o campo de entrada (sem alteração). Cópia de um conjunto de dados de uma tabela para outra. customer_id → customer_id
TRANSFORMAÇÃO A saída é derivada de campos de entrada usando funções, conversões, concatenação, etc. Padronização ou limpeza de dados. full_name = CONCAT(nome, ' ', sobrenome)

Análise de Impacto

Os artefatos de dados selecionados como nó âncora têm uma guia adicional na janela Detalhes da Análise de Impacto. Na guia Análise de Impacto, você pode procurar nomes de artefato específicos ou filtrar por tipo de artefato. Você pode selecionar Upstream ou Downstream para mostrar apenas artefatos que são upstream ou downstream do artefato selecionado no momento.


A página de detalhes content_engagement_clean do nó de linhagem é exibida. A guia Análise de Impacto está selecionada.

Use a análise de impacto upstream para entender as dependências. Use a análise de impacto downstream para identificar os consumidores que podem ser afetados por alterações no artefato selecionado.

Clique em Exportar análise de importação para exportar os artefatos relacionados ao artefato de dados selecionado. Você pode exportar artefatos upstream, artefatos downstream ou todos os artefatos relacionados.

Linhagem de Entidade e Coluna

Em alguns cenários de linhagem em que vários conjuntos de dados upstream participam da produção de um conjunto de dados de destino, apenas alguns desses conjuntos de dados upstream contribuem com valores de coluna reais para o destino.

A principal distinção entre linhagem de entidade e linhagem de coluna é a pergunta que eles respondem:
  • Respostas da linhagem da entidade: Quais conjuntos de dados participaram da criação do destino?
  • Respostas da linhagem da coluna: Quais colunas de origem forneceram os valores da coluna de destino?
Como essas perguntas são diferentes, a linhagem de entidades e a linhagem de colunas podem parecer diferentes para o mesmo pipeline.
Em algumas transformações, uma entrada fornece os valores de linhas e colunas gravados no destino, enquanto outra entrada é usada apenas como referência para filtragem. Nestas situações:
  • A linhagem de entidade deve mostrar todos os conjuntos de dados de upstream dos quais o destino depende.
  • Linhagem de coluna só pode mostrar o fluxo no nível da coluna da entrada que fornece valor.
  • Uma entrada de referência pode afetar o conjunto de linhas de destino sem contribuir com valores para as colunas de destino.
Este comportamento é esperado.

Exemplo: Linhagem de Entidade e Coluna

Suponha que dois conjuntos de dados de origem contenham as mesmas colunas, mas não as mesmas linhas:
  • source_table_1 contém o conjunto de dados principal.
  • source_table_2 contém um conjunto de linhas de referência.
  • A tabela de destino é criada mantendo somente as linhas que existem nas duas tabelas de origem.
Por exemplo:

Tabela 11-1 source_table_1

id_produto data_vendas quantidade valor_total
101 01-06-2025 10 150
102 02-06-2025 20 300
103 03-06-2025 15 225
104 04-06-2025 12 180

Tabela 11-2 source_table_2

id_produto data_vendas quantidade valor_total
102 02-06-2025 20 300
103 03-06-2025 15 225
105 05-06-2025 18 270

Tabela 11-3 target_table

id_produto data_vendas quantidade valor_total
102 02-06-2025 20 300
103 03-06-2025 15 225

Neste exemplo, ambas as tabelas de origem participam da criação do destino porque ambas são necessárias para determinar o conjunto de linhas final.


A tela de linhagem é exibida com os nós source_table_1 e source_table_2 conectados ao nó ipynb de instersecção que está conectado ao nó target_table.

No entanto, de uma perspectiva de linhagem de coluna, os valores da coluna de destino só podem ser atribuídos à entrada de fornecimento de valor, como source_table_1. A segunda entrada, source_table_2, é usada para determinar quais linhas se qualificam para o destino, mas seus valores não são necessariamente copiados nas colunas de destino.


Tela de linhagem com o nó source_table_1 expandido e setas azuis conectando colunas ao nó de notebook do instersect, que é conectado às quatro colunas herdadas por target_table

Por esses motivos, quando a view de linhagem está ancorada em source_table_2, nenhum link de linhagem no nível da coluna é exibido, conforme mostrado abaixo.


Tela de linhagem mostrando source_table_2 como nó de ancoragem e sem links de linhagem no nível da coluna conectando-o a target_table.

Por que a Linhagem da Entidade Mostra Ambas as Entradas

A linhagem da entidade captura a dependência no nível do conjunto de dados. Se um trabalho de processamento ler dois conjuntos de dados e o resultado depender de ambos, ambos os conjuntos de dados serão entidades upstream legítimas. Neste padrão:
  • O destino não pode ser totalmente explicado sem o Conjunto de Dados de Origem A.
  • O destino também não pode ser totalmente explicado sem o Conjunto de Dados de Origem B, porque o Conjunto de Dados de Origem B determina quais registros do Conjunto de Dados de Origem A são retidos.
  • Portanto, o Conjunto de Dados de Origem A e o Conjunto de Dados de Origem B devem aparecer como entidades de upstream para o Conjunto de Dados de Destino C.
Esta é uma linhagem de dependência, não uma linhagem de valor.

Por que a Linhagem da Coluna Mostra Somente a Entrada de Fornecimento de Valor

A linhagem da coluna captura a proveniência do valor. Ela descreve de onde vieram os valores de cada coluna de destino.

Por exemplo, se a tabela de destino for gravada usando linhas do Conjunto de Dados de Origem A após a filtragem de linhas do Conjunto de Dados de Origem B, os valores da coluna de destino ainda serão originados do Conjunto de Dados de Origem A.

Exemplos de mapeamentos de coluna:

Coluna de Destino Coluna de Origem
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

O Conjunto de Dados de Origem B influencia se uma linha está presente, mas seus valores de coluna não são copiados para o destino. Como resultado, o Conjunto de Dados de Origem B pode aparecer na linhagem da entidade sem aparecer na linhagem da coluna.

Exibir Linhagem de Dados

Você pode ver a herança de dados no seu espaço de trabalho à medida que ela se move entre diferentes artefatos do Oracle AI Data Platform Workbench.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.

    A exibição do catálogo mestre de um espaço de trabalho do AI Data Platform Workbench é exibida. Uma tabela foi clicada com o botão direito do mouse e exibe as opções de menu Compartilhamento e Linhagem. A linhagem é destacada.

  3. O diagrama de linhagem é exibido.

Exibir Linhagem para Colunas de Dados Específicas

Você pode rastrear a linhagem de uma coluna de dados específica por meio do diagrama de linhagem.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Clique na seta na parte inferior de um artefato de tabela ou volume para expandi-lo.
  4. Clique duas vezes na coluna de dados para a qual deseja realçar a linhagem.

Exibir Detalhes de um Artefato de Linhagem

Você pode ver detalhes adicionais de um artefato em seus diagramas de linhagem.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Clique duas vezes em um artefato no diagrama de linhagem para exibir detalhes adicionais. Você também pode clicar com o botão direito do mouse e clicar em Exibir Detalhes.
  4. Clique na guia Análise de Impacto para exibir o impacto de upstream e downstream do artefato. Essa guia só está disponível para o nó de âncora.

Exportar Análise de Impacto

Você pode exportar a análise de impacto para artefatos de dados ao exibir os detalhes de um artefato de linhagem.

Observação:

Você só pode exportar a análise de impacto para artefatos de dados.
  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Clique duas vezes em um artefato de dados no diagrama de linhagem. Selecione a guia Análise de Impacto.
  4. Clique em Exportar análise de impacto.
  5. No menu drop-down, selecione se upstream, downstream ou todos os artefatos devem ser incluídos.
  6. Clique em Exportar.

Filtrar Diagrama de Fluxo de Linhagem

Você pode filtrar seu diagrama de linhagem para ajudar a se concentrar em pontos de dados mais específicos ao examinar a linhagem.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Nos menus drop-down, selecione catálogos, esquemas, volumes ou espaços de trabalho específicos dos quais filtrar os resultados.

Procurar Artefatos no Diagrama de Fluxo de Linhagem

Você pode procurar strings para localizar artefatos específicos no diagrama de linhagem ao exibir a linhagem do artefato.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. No campo Pesquisar na parte superior do diagrama de linhagem, informe a string a ser pesquisada.
  4. Clique em um resultado na lista para centralizar o diagrama nesse artefato.

Alterar Profundidade do Fluxo de Linhagem

Você pode alterar quantos níveis de artefatos upstream ou downstream seu diagrama de linhagem exibe para ajudá-lo a expandir ou restringir o foco do diagrama.

  1. Navegue até o artefato em seu Catálogo Mestre cuja linhagem você deseja exibir.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Clique em Ícone de três pontos de ações Ações no canto superior direito
  4. Clique em Configurações de Linhagem.

    O menu de ações com três pontos de linhagem é exibido. As configurações de linhagem são realçadas.

  5. Modifique Profundidade de upstream e Profundidade de downstream conforme necessário.
  6. Clique em Salvar.

Compartilhar um Diagrama de Fluxo de Linhagem

Você pode compartilhar o diagrama de linhagem mostrando a linhagem de um objeto específico como um link direto ou uma imagem PNG.

  1. Navegue até o artefato em seu Catálogo Mestre pelo qual você deseja compartilhar a linhagem.
  2. Clique com o botão esquerdo do mouse no artefato, em seguida, clique em Linhagem. Você também pode selecionar o artefato e clicar em Ações no canto superior direito. Em seguida, clique em Linhagem.
  3. Clique em Ícone de três pontos de ações Ações no canto superior direito.

    O menu de ações de três pontos de linhagem está selecionado. Copiar link e Exportar exibição de linhagem atual estão destacados.

  4. Escolha como deseja compartilhar seu diagrama de linhagem:
    • Clique em Copiar link para copiar um link diretamente para a área de transferência. Cole o link para compartilhá-lo.
    • Clique em Exportar view de linhagem atual (.png) para exportar a view atual do diagrama de linhagem, incluindo todos os filtros aplicados.