Coletando Metadados Técnicos

Extrair informações da estrutura de dados das origens de dados para o repositório do catálogo de dados.

O processo de extração de informações da estrutura de dados é conhecido como coleta.

Imagem mostrando o processo de coleta

O que é um Ativo de Dados?

Para coletar a origem de dados, é necessário registrá-la como um ativo de dados em sua instância do catálogo de dados. Um ativo de dados é qualquer armazenamento de dados físico ou stream de dados, como um banco de dados, um contêiner de armazenamento na nuvem ou um stream de mensagens.

Quando você coleta um ativo de dados, o coletor do serviço Data Catalog extrai, padroniza e indexa informações de metadados do ativo de dados para criar um repositório unificado e pesquisável no catálogo de dados. Em seguida, você procura ou explora o catálogo de dados para exibir as entidades e os atributos de dados coletados para anotar e enriquecer os ativos de dados.

A coleta de uma origem de dados envolve as seguintes etapas:

  1. Identificar os detalhes da conectividade para estabelecer conexão com a origem de dados.
  2. Criar um ativo de dados.
  3. Adicionar uma conexão ao seu ativo de dados.
  4. Coletar o ativo de dados.

Origens de Dados Suportadas para Ativos de Dados

Use as origens de dados a seguir (acessíveis usando IPs públicos ou privados) para criar ativos de dados no serviço Data Catalog.

Observação

Esta é uma lista de origens de dados suportadas, não certificadas.
Tipo de Origem de Dados Versão
Oracle Database 12.1
12.2
18
19
20
21
Oracle Database no Oracle Cloud Infrastructure 12.1
12.2
18
19
Sistemas de BD Exadata 12.1
12.2
18
19
Oracle Cloud Infrastructure Object Storage Mais recente
Autonomous Database para Análise e Data Warehousing 18c/19c
Autonomous Database para Processamento de Transações e Cargas de Trabalho Mistas 18c/19c
MySQL 8.0.x
Serviço OCI HeatWave 8.0.25-u3-cloud
PostgreSQL 10.1
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 e 9.0
8.4, 8.3 e 8.2
Apache Hive CDH 5.4 e superior
Apache 1.0, 2.0, 3.0 e superior
Microsoft SQL Server 2019
2017
2016 Service Pack 2
2014 Service Pack 3
2012 Service Pack 4
IBM DB2 LUW (DB2 para Linux, UNIX e Windows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1 e superior
Apache Kafka 2.12-2.3.0
Microsoft Azure SQL Database 12.00.2000

Você também pode estabelecer conexão com origens de dados locais conectadas às VCNs (Redes Virtuais na Nuvem) do Oracle Cloud Infrastructure.

Dependendo do tipo de ativo de dados criado, use estruturas de dados diferentes para procurar as entidades de dados. Por exemplo, se você criar um ativo de dados do Oracle Database, navegue pelos objetos do banco de dados para revisar a tabela e exibir as entidades de dados.

Observação

Em ativos de dados do tipo Oracle Database ou Autonomous Databases, se a versão do banco de dados for Oracle Database 12c e superior, o coletor do serviço Data Catalog não coletará os esquemas mantidos pela Oracle e outros esquemas do usuário comum.

Objetos Coletados para Origens de Dados

Os objetos coletados para diferentes origens de dados são listados na tabela a seguir:

Origem de Dados Objetos Coletados
Apache Hive
  • Bancos de dados Hive
  • Tabelas
  • Colunas
Apache Kafka
  • Tópicos
  • Mensagens
  • Atributos
Oracle Cloud Infrastructure Object Storage
  • Buckets
  • Arquivos

    (Tipos de arquivo: CSV, Avro, ORC, Parquet, JSON, XML, Excel)

  • Campos

    (com base nos tipos de arquivo)

Metastore do OCI Data Catalog
  • Catálogos
  • Bancos de Dados
  • Tabelas
  • Colunas
Autonomous Data Warehouse
  • Esquemas
  • Tabelas
  • Views
  • Colunas
  • Constraints (Chave Primária e Estrangeira)
  • Comentários (Aplicável somente ao Oracle Database)
Autonomous Transaction Processing
IBM DB2
Banco de dados Microsoft Azure SQL
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Tipos de Arquivos Suportados

Os seguintes tipos de arquivos são suportados para o Oracle Object Storage:

  • Arquivos CSV (Valor Separado por Vírgula) (.csv, .csv.gz)

    Observação

    Os separadores suportados são , (vírgula), \t (barra invertida), | (barra vertical), ; (ponto-e-vírgula).
  • Arquivos XML (.xml, .xsd)

  • Arquivos avro (.avro, .avro.gz)

  • Arquivos do Excel (.xls, .xlsx)

  • Arquivos Apache Parquet (.parquet, .pq)

  • Arquivos Apache ORC (.orc)

  • Arquivos JSON simples (.json, .json.gz)

Se você optar por coletar tipos de arquivo não suportados, o coletor do serviço Data Catalog só extrairá informações básicas desses arquivos, como nomes e caminhos.

Entidades de Dados e Atributos

Um ativo de dados contém uma ou mais entidades de dados. Uma entidade de dados é um conjunto de dados, como uma tabela ou view de banco de dados, ou um único arquivo lógico. Uma entidade de dados normalmente tem muitos atributos que descrevem seus dados. Um atributo descreve um item de dados com um nome e um tipo de dados.

Ativo de Dados Entidades de Dados Atributos
Banco de Dados Tabelas e Views Colunas
Contêiner de Arquivos Arquivos Campos
Stream de Dados Evento, Tópico ou Payload Chaves