Recogida de metadatos técnicos
Extraiga información de la estructura de datos de los orígenes de datos en el repositorio de Data Catalog.
El proceso de extracción de información de estructura de datos se conoce como recolección.
¿Qué es un activo de datos?
Para recoger el origen de datos, debe registrar el origen de datos como un activo de datos en la instancia de Data Catalog. Un activo de datos es un almacén de datos físico o secuencia de datos como, por ejemplo, una base de datos, un contenedor de almacenamiento en la nube o una secuencia de mensajes.
Al recoger un activo de datos, el servicio de recogida de Data Catalog extrae, estandariza e indexa los metadatos del activo de datos para crear un repositorio unificado y apto para búsqueda en el catálogo de datos. A continuación, puede examinar o explorar el catálogo de datos para ver las entidades de datos y los atributos recogidos para anotar y enriquecer los activos de datos.
La recogida de un origen de datos incluye los siguientes pasos:
- Identifique los detalles de conectividad para conectarse al origen de datos.
- Cree un activo de datos.
- Agregue una conexión al activo de datos.
- Recoja el activo de datos.
Orígenes de datos soportados para activos de datos
Utilice los siguientes orígenes de datos (accesibles mediante IP públicas o privadas) para crear activos de datos en Data Catalog.
Esta es una lista de orígenes de datos soportados, no de orígenes de datos certificados.
Tipo de origen de datos | Versión |
---|---|
Oracle Database | 12.1 |
12.2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database en Oracle Cloud Infrastructure | 12.1 |
12.2 | |
18 | |
19 | |
Sistemas de base de datos de Exadata | 12.1 |
12.2 | |
18 | |
19 | |
Oracle Cloud Infrastructure Object Storage | Última |
Autonomous Database para análisis y almacenamiento de datos | 18c/19c |
Carga de trabajo mixta y Autonomous Database for Transaction Processing | 18c/19c |
MySQL | 8.0.x |
Servicio HeatWave de OCI | 8.0.25-u3-cloud |
PostgreSQL | 10.1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 y 9.0 | |
8.4, 8.3 y 8.2 | |
Apache Hive | CDH 5.4 y superior |
Apache 1.0, 2.0, 3.0 y superior | |
Microsoft SQL Server | 2019 |
2017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 para Linux, UNIX y Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | 7.1 o superior |
Apache Kafka | 2.12-2.3.0 |
Microsoft Azure SQL Database | 12.00.2000 |
También puede conectarse a orígenes de datos locales conectados a redes virtuales en la nube (VCN) de Oracle Cloud Infrastructure.
Según el tipo de activo de datos que cree, utilice diferentes estructuras de datos para examinar las entidades de datos. Por ejemplo, si crea un activo de datos de Oracle Database, examine los objetos de base de datos para revisar la tabla y ver las entidades de datos.
En activos de datos de tipo Oracle Database o en Autonomous Database si la versión de la base de datos es Oracle Database 12c y superiores, el servicio de recogida de Data Catalog no recoge los esquemas mantenidos por Oracle y otros esquemas de usuario comunes.
Objetos recopilados para orígenes de datos
Los objetos recogidos para diferentes orígenes de datos se muestran en la siguiente tabla:
Origen de Datos | Objetos con recogida |
---|---|
Apache Hive |
|
Apache Kafka |
|
Oracle Cloud Infrastructure Object Storage |
|
Metastore de OCI Data Catalog |
|
Autonomous Data Warehouse |
|
Autonomous Transaction Processing | |
IBM DB2 | |
Base de Datos Microsoft Azure SQL | |
Microsoft SQL Server | |
MySQL | |
Oracle Database | |
PostgreSQL |
Tipos de archivo soportados
Se admiten los siguientes tipos de archivos para Oracle Object Storage:
-
Archivos de valores separados por comas (CSV) (
.csv
,.csv.gz
)Nota
Los separadores soportados son, (coma),
\t
(separador),|
(barra vertical),;
(punto y coma). -
Archivos XML (
.xml
,.xsd
) -
Archivos Avro (
.avro
,.avro.gz
) -
Archivos de Excel (
.xls
,.xlsx
) -
Archivos Apache Parquet (
.parquet
,.pq
) -
Archivos Apache ORC (
.orc
) -
Archivos Simple JSON (
.json
,.json.gz
)
Si decide recoger tipos de archivos no soportados, el servicio de recogida de Data Catalog solo extrae información básica de esos archivos, como los nombres y las rutas.
Entidades de datos y atributos
Un activo de datos contiene una o varias entidades de datos. Una entidad de datos es una recopilación de datos, como una vista o tabla de base de datos, o un único archivo lógico. Una entidad de datos suele tener muchos atributos que describen sus datos. Un atributo describe un elemento de datos con un nombre y un tipo de datos.
Activo de datos | Entidades de datos | Atributos |
---|---|---|
Base de datos | Tablas y vistas | Columnas |
Contenedor de archivos | Archivos | Campos |
Secuencia de datos | Evento, tema o carga útil | Claves |