Coletando Metadados Técnicos
Extrair informações da estrutura de dados das origens de dados para o repositório do catálogo de dados.
O processo de extração de informações da estrutura de dados é conhecido como coleta.
O que é um Ativo de Dados?
Para coletar a origem de dados, é necessário registrá-la como um ativo de dados em sua instância do catálogo de dados. Um ativo de dados é qualquer armazenamento de dados físico ou stream de dados, como um banco de dados, um contêiner de armazenamento na nuvem ou um stream de mensagens.
Quando você coleta um ativo de dados, o coletor do serviço Data Catalog extrai, padroniza e indexa informações de metadados do ativo de dados para criar um repositório unificado e pesquisável no catálogo de dados. Em seguida, você procura ou explora o catálogo de dados para exibir as entidades e os atributos de dados coletados para anotar e enriquecer os ativos de dados.
A coleta de uma origem de dados envolve as seguintes etapas:
- Identificar os detalhes da conectividade para estabelecer conexão com a origem de dados.
- Criar um ativo de dados.
- Adicionar uma conexão ao seu ativo de dados.
- Coletar o ativo de dados.
Origens de Dados Suportadas para Ativos de Dados
Use as origens de dados a seguir (acessíveis usando IPs públicos ou privados) para criar ativos de dados no serviço Data Catalog.
Esta é uma lista de origens de dados suportadas, não certificadas.
Tipo de Origem de Dados | Versão |
---|---|
Oracle Database | 12.1 |
12.2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database no Oracle Cloud Infrastructure | 12.1 |
12.2 | |
18 | |
19 | |
Sistemas de BD Exadata | 12.1 |
12.2 | |
18 | |
19 | |
Oracle Cloud Infrastructure Object Storage | Mais recente |
Autonomous Database para Análise e Data Warehousing | 18c/19c |
Autonomous Database para Processamento de Transações e Cargas de Trabalho Mistas | 18c/19c |
MySQL | 8.0.x |
Serviço OCI HeatWave | 8.0.25-u3-cloud |
PostgreSQL | 10.1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 e 9.0 | |
8.4, 8.3 e 8.2 | |
Apache Hive | CDH 5.4 e superior |
Apache 1.0, 2.0, 3.0 e superior | |
Microsoft SQL Server | 2019 |
2017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 para Linux, UNIX e Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | 7.1 e superior |
Apache Kafka | 2.12-2.3.0 |
Microsoft Azure SQL Database | 12.00.2000 |
Você também pode estabelecer conexão com origens de dados locais conectadas às VCNs (Redes Virtuais na Nuvem) do Oracle Cloud Infrastructure.
Dependendo do tipo de ativo de dados criado, use estruturas de dados diferentes para procurar as entidades de dados. Por exemplo, se você criar um ativo de dados do Oracle Database, navegue pelos objetos do banco de dados para revisar a tabela e exibir as entidades de dados.
Em ativos de dados do tipo Oracle Database ou Autonomous Databases, se a versão do banco de dados for Oracle Database 12c e superior, o coletor do serviço Data Catalog não coletará os esquemas mantidos pela Oracle e outros esquemas do usuário comum.
Objetos Coletados para Origens de Dados
Os objetos coletados para diferentes origens de dados são listados na tabela a seguir:
Origem de Dados | Objetos Coletados |
---|---|
Apache Hive |
|
Apache Kafka |
|
Oracle Cloud Infrastructure Object Storage |
|
Metastore do OCI Data Catalog |
|
Autonomous Data Warehouse |
|
Autonomous Transaction Processing | |
IBM DB2 | |
Banco de dados Microsoft Azure SQL | |
Microsoft SQL Server | |
MySQL | |
Oracle Database | |
PostgreSQL |
Tipos de Arquivos Suportados
Os seguintes tipos de arquivos são suportados para o Oracle Object Storage:
-
Arquivos CSV (Valor Separado por Vírgula) (
.csv
,.csv.gz
)Observação
Os separadores suportados são,
(vírgula),\t
(barra invertida),|
(barra vertical),;
(ponto-e-vírgula). -
Arquivos XML (
.xml
,.xsd
) -
Arquivos avro (
.avro
,.avro.gz
) -
Arquivos do Excel (
.xls
,.xlsx
) -
Arquivos Apache Parquet (
.parquet
,.pq
) -
Arquivos Apache ORC (
.orc
) -
Arquivos JSON simples (
.json
,.json.gz
)
Se você optar por coletar tipos de arquivo não suportados, o coletor do serviço Data Catalog só extrairá informações básicas desses arquivos, como nomes e caminhos.
Entidades de Dados e Atributos
Um ativo de dados contém uma ou mais entidades de dados. Uma entidade de dados é um conjunto de dados, como uma tabela ou view de banco de dados, ou um único arquivo lógico. Uma entidade de dados normalmente tem muitos atributos que descrevem seus dados. Um atributo descreve um item de dados com um nome e um tipo de dados.
Ativo de Dados | Entidades de Dados | Atributos |
---|---|---|
Banco de Dados | Tabelas e Views | Colunas |
Contêiner de Arquivos | Arquivos | Campos |
Stream de Dados | Evento, Tópico ou Payload | Chaves |