Recogida de metadatos técnicos

Extraiga información de la estructura de datos de los orígenes de datos en el repositorio de Data Catalog.

El proceso de extracción de información de estructura de datos se conoce como recolección.

Imagen que muestra el proceso de recogida

¿Qué es un activo de datos?

Para recoger el origen de datos, debe registrar el origen de datos como un activo de datos en la instancia de Data Catalog. Un activo de datos es un almacén de datos físico o secuencia de datos como, por ejemplo, una base de datos, un contenedor de almacenamiento en la nube o una secuencia de mensajes.

Al recoger un activo de datos, el servicio de recogida de Data Catalog extrae, estandariza e indexa los metadatos del activo de datos para crear un repositorio unificado y apto para búsqueda en el catálogo de datos. A continuación, puede examinar o explorar el catálogo de datos para ver las entidades de datos y los atributos recogidos para anotar y enriquecer los activos de datos.

La recogida de un origen de datos incluye los siguientes pasos:

  1. Identifique los detalles de conectividad para conectarse al origen de datos.
  2. Cree un activo de datos.
  3. Agregue una conexión al activo de datos.
  4. Recoja el activo de datos.

Orígenes de datos soportados para activos de datos

Utilice los siguientes orígenes de datos (accesibles mediante IP públicas o privadas) para crear activos de datos en Data Catalog.

Nota

Esta es una lista de orígenes de datos soportados, no de orígenes de datos certificados.
Tipo de origen de datos Versión
Oracle Database 12.1
12.2
18
19
20
21
Oracle Database en Oracle Cloud Infrastructure 12.1
12.2
18
19
Sistemas de base de datos de Exadata 12.1
12.2
18
19
Oracle Cloud Infrastructure Object Storage Última
Autonomous Database para análisis y almacenamiento de datos 18c/19c
Carga de trabajo mixta y Autonomous Database for Transaction Processing 18c/19c
MySQL 8.0.x
Servicio HeatWave de OCI 8.0.25-u3-cloud
PostgreSQL 10.1
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 y 9.0
8.4, 8.3 y 8.2
Apache Hive CDH 5.4 y superior
Apache 1.0, 2.0, 3.0 y superior
Microsoft SQL Server 2019
2017
2016 Service Pack 2
2014 Service Pack 3
2012 Service Pack 4
IBM DB2 LUW (DB2 para Linux, UNIX y Windows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1 o superior
Apache Kafka 2.12-2.3.0
Microsoft Azure SQL Database 12.00.2000

También puede conectarse a orígenes de datos locales conectados a redes virtuales en la nube (VCN) de Oracle Cloud Infrastructure.

Según el tipo de activo de datos que cree, utilice diferentes estructuras de datos para examinar las entidades de datos. Por ejemplo, si crea un activo de datos de Oracle Database, examine los objetos de base de datos para revisar la tabla y ver las entidades de datos.

Nota

En activos de datos de tipo Oracle Database o en Autonomous Database si la versión de la base de datos es Oracle Database 12c y superiores, el servicio de recogida de Data Catalog no recoge los esquemas mantenidos por Oracle y otros esquemas de usuario comunes.

Objetos recopilados para orígenes de datos

Los objetos recogidos para diferentes orígenes de datos se muestran en la siguiente tabla:

Origen de Datos Objetos con recogida
Apache Hive
  • Bases de datos Hive
  • Tablas
  • Columnas
Apache Kafka
  • Temas
  • mensajes
  • Atributos
Oracle Cloud Infrastructure Object Storage
  • Cubos
  • Archivos

    (Tipos de archivo: CSV, Avro, ORC, Parquet, JSON, XML, Excel)

  • Campos

    (según los tipos de archivo)

Metastore de OCI Data Catalog
  • Catálogos
  • bases de datos
  • Tablas
  • Columnas
Autonomous Data Warehouse
  • Esquemas
  • Tablas
  • vistas
  • Columnas
  • Restricciones (Clave primaria y Clave ajena)
  • Comentarios (aplicables solo a Oracle Database)
Autonomous Transaction Processing
IBM DB2
Base de Datos Microsoft Azure SQL
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Tipos de archivo soportados

Se admiten los siguientes tipos de archivos para Oracle Object Storage:

  • Archivos de valores separados por comas (CSV) (.csv, .csv.gz)

    Nota

    Los separadores soportados son , (coma),\t (separador), | (barra vertical), ; (punto y coma).
  • Archivos XML (.xml, .xsd)

  • Archivos Avro (.avro, .avro.gz)

  • Archivos de Excel (.xls, .xlsx)

  • Archivos Apache Parquet (.parquet, .pq)

  • Archivos Apache ORC (.orc)

  • Archivos Simple JSON (.json, .json.gz)

Si decide recoger tipos de archivos no soportados, el servicio de recogida de Data Catalog solo extrae información básica de esos archivos, como los nombres y las rutas.

Entidades de datos y atributos

Un activo de datos contiene una o varias entidades de datos. Una entidad de datos es una recopilación de datos, como una vista o tabla de base de datos, o un único archivo lógico. Una entidad de datos suele tener muchos atributos que describen sus datos. Un atributo describe un elemento de datos con un nombre y un tipo de datos.

Activo de datos Entidades de datos Atributos
Base de datos Tablas y vistas Columnas
Contenedor de archivos Archivos Campos
Secuencia de datos Evento, tema o carga útil Claves