Visão Geral da Linhagem de Dados
A linhagem de dados indica a jornada que os dados levam à medida que fluem das origens de dados para o consumo. Por meio de metadados, os consumidores de dados podem entender e visualizar as transformações pelas quais os dados passaram nos pipelines de dados.
Origens de Dados Suportadas para Linhagem
No serviço Data Catalog, a linhagem é suportada para as seguintes origens de dados:
- Banco de Dados Apache Hive
- Autonomous Data Warehouse
- Autonomous Transaction Processing
- IBM DB2
- Banco de Dados SQL do Microsoft Azure
- Microsoft SQL Server Database
- Serviço MySQL Database
- Oracle Database
- Armazenamento de Objetos Oracle
- PostgreSQL
Linhagem de Dados
No serviço Data Catalog, você pode exibir a linhagem das entidades e seus atributos. Por exemplo, linhagem no nível de tabela e coluna. A linhagem está disponível para dados processados por aplicativos Data Integration, aplicativos Data Flow ou seus aplicativos personalizados. Cada um deles requer a configuração, conforme explicado nas seções abaixo.
Linhagem de Dados para Integração de Dados
Para exibir a linhagem no serviço Data Catalog, você deve:
- Marque a caixa de seleção Gerar linhagem de dados na configuração do aplicativo no espaço de trabalho do OCI Data Integration para gerar metadados de linhagem.
- Crie um ativo de dados do OCI Data Integration para o espaço de trabalho do Data Integration no serviço Data Catalog. Consulte Políticas Obrigatórias do Serviço IAM para Ativo de Dados do Serviço Data Integration e Ativo de Dados do Serviço Data Integration.
Quando o serviço Data Catalog extrai as informações de linhagem do espaço de trabalho do Data Integration, ele contém informações sobre ativos de dados e tarefas executadas nos aplicativos. Com base nas informações de linhagem, se não houver ativo de dados correspondente no catálogo, o serviço Data Catalog criará esse ativo de dados. O nome desse ativo de dados é igual ao definido no espaço de trabalho do Data Integration.
-
A linhagem só está disponível para dados processados por tarefas de Integração e tarefas do Carregador de Dados no espaço de trabalho do Data Integration.
-
A linhagem no nível da coluna não está disponível para tarefas com operadores Nivelar, Deslocar e Função.
Linhagem de Dados para Fluxo de Dados
Para exibir a linhagem do aplicativo no serviço Data Flow, marque a caixa de seleção Ativar coleta de linhagem de dados na configuração do aplicativo no espaço de trabalho do OCI Data Flow para gerar metadados de linhagem. Um ativo de dados é criado automaticamente no serviço Data Catalog para o serviço Data Flow na mesma tenancy em que os metadados da primeira linhagem são enviados ao catálogo. O nome desse ativo de dados está no formato OCI Data Flow - <tenancy name>. Consulte Políticas Obrigatórias do Serviço IAM para Ativo de Dados do Serviço Data Flow e Data Flow.
Para capturar a linhagem de aplicativos em execução no serviço Data Flow em uma tenancy separada, você deve criar um ativo de dados para esse serviço Data Flow. Certifique-se de definir as seguintes políticas.
O ativo de dados do serviço Data Flow é atualizado em intervalos predefinidos à medida que a linhagem é atualizada no serviço Data Flow.
Ingestão de Linhagem Personalizada
O serviço Data Catalog permite que você estenda o recurso de linhagem fornecendo metadados de linhagem para dados processados/transformados em aplicativos que o serviço Data Catalog não suporta nativamente para coleta de linhagem. Isso é obtido usando a API ImportLineage
.
-
Criação de Ativo de Dados para provedor de linhagem Personalizado: você deve criar um ativo de dados para cada provedor de linhagem personalizado. É importante observar a chave do ativo de dados desses ativos de dados à medida que eles são usados para identificar o provedor de linhagem na API
ImportLineage
. -
Ingestão de linhagem personalizada no catálogo: Você pode ingerir metadados de linhagem no catálogo para dados processados em aplicações ou outros mecanismos de processamento de dados não suportados nativamente para coleta de linhagem pelo serviço OCI Data Catalog. Suportamos a ingestão de linhagem de aplicativos Spark.
A API
ImportLineage
aceita o payload da linhagem em um formato compatível comopenLineage
. Para obter mais detalhes sobre a API, consulte ImportLineage. -
Exibindo a linhagem ingerida personalizada em um gráfico de linhagem: No gráfico de linhagem de uma entidade de dados, os usuários podem usar uma alternância na IU para destacar caminhos que foram fornecidos por provedores de linhagem personalizada usando a API
ImportLineage
.
Exibindo a Linhagem de Dados de uma Entidade
A linhagem representa o fluxo de dados da origem para esta entidade de destino.
Se um ícone de aviso aparecer ao lado do nome de um ativo de dados recém-criado ou de suas pastas e entidades, você deverá criar uma conexão para coletar as pastas e entidades. Isso garante que todos os atributos das entidades estejam disponíveis no catálogo, pois os metadados da linhagem podem conter apenas atributos que contribuem para a linhagem.
- No campo Pesquisar da guia Home, informe o nome da entidade.
- Na página de resultados da pesquisa, selecione a entidade necessária.
- Na página de detalhes da entidade, clique na guia Linhagem.
No gráfico de linhagem, a entidade na qual você inicia a linhagem é identificada por um ícone de âncora nele. O objeto âncora pode aparecer em qualquer lugar no gráfico de linhagem. O lado esquerdo deste objeto âncora mostra a linhagem e o lado direito indica o impacto.
Não é possível executar esta tarefa usando a CLI.
Execute a operação FetchEntityLineage para extrair a linhagem de uma entidade.
Visualização do Gráfico de Linhagem
O gráfico de linhagem contém nós de processo e nós de dados conectados por linhas para indicar o fluxo:
- Processo: Representa os objetos de tarefa do serviço Data Integration, os aplicativos do serviço Data Flow ou os aplicativos personalizados. Ao clicar em um nó de processo, você pode encontrar o menu Ações.
Para o Data Integration, clique em Abrir no Data Integration para exibir os detalhes da tarefa do Data Integration executada na Console do Data Integration.
Para aplicativos do serviço Data Flow, clique em Abrir no serviço Data Flow para exibir os detalhes do aplicativo na Console do serviço Data Flow. Se os aplicativos estiverem em outra tenancy, você deverá acessar outra tenancy do OCI. Para fazer isso, copie o link e abra-o em uma janela separada do navegador.
Dados: Representa os objetos do serviço Data Catalog. Você pode expandir esses nós para exibir a linhagem no nível da coluna. Ao clicar em um ícone de nó de dados, você pode encontrar o menu Ações. Clique em Mostrar resumo do objeto para exibir o resumo do objeto do serviço Data Catalog em uma nova guia.Observação
Se o serviço Data Catalog não mapear com precisão um ativo de dados do Data Integration, você poderá encontrar um ativo de dados duplicado no gráfico de linhagem.
Os nós de linhagem não estão visíveis no navegador Safari.
Ative a alternância do painel Mostrar propriedade para exibir detalhes como Nome, Caminho e Descrição de um nó selecionado.
- A linhagem no nível da entidade
- As colunas expandindo a entidade
- A linhagem no nível da coluna de uma coluna selecionando a coluna