Visión general de Data Catalog

Data Catalog es un servicio de gestión de metadatos que ayuda a los consumidores de datos a detectar datos y mejorar la gobernanza del ecosistema de Oracle.

Con OCI Data Catalog, los analistas de datos, los científicos de datos, los ingenieros de datos y los administradores de datos tienen un único entorno de autoservicio para descubrir los datos disponibles en las fuentes en la nube. Data Catalog ayuda a los proveedores de datos a crear un diccionario de datos que incluye metadatos técnicos y empresariales. Los consumidores de datos pueden evaluar fácilmente la idoneidad de los datos para proyectos de análisis y ciencia de datos.

Capacidades clave de Data Catalog

  • Recopile metadatos técnicos de una amplia gama de orígenes de datos soportados a los que se pueda acceder mediante IP públicas o privadas.
  • Crear y gestionar un vocabulario de empresa común con un glosario de negocio. Crear una jerarquía de categorías, subcategorías y términos con descripciones de texto enriquecido detalladas.
  • Enriquecer los metadatos técnicos recogidos con anotaciones vinculando entidades de datos y atributos a términos de negocio, propiedades definidas por el usuario o agregando etiquetas de formato libre.
  • Buscar la información necesaria explorando los activos de datos, examinando el catálogo de datos o utilizando la barra de búsqueda rápida.
  • Automatizar y gestionar los trabajos de recogida mediante programas.
  • Integrar las capacidades empresariales del catálogo de datos con otras aplicaciones mediante las API de REST y los SDK.
Consejo

Vea un vídeo de introducción al servicio.

Conceptos de Data Catalog

Es esencial comprender los siguientes conceptos para utilizar Data Catalog.

Activo de datos
Representa un origen de datos, como una base de datos, un almacén de objetos, un almacén de archivos o documentos, una cola de mensajes o una aplicación.
Conexión
Incluye los detalles necesarios para establecer una conexión con un origen de datos. Una conexión siempre está asociada a un activo de datos. Un activo de datos puede tener más de una conexión.
Tipo de conexión
Define las distintas propiedades disponibles en una conexión para conectarse a un activo de datos.
Recogida
Proceso que extrae en el repositorio del catálogo de datos metadatos técnicos de los orígenes de datos conectados.
Objeto
Un objeto de Data Catalog hace referencia a cualquier objeto gestionado en el catálogo de datos, como activos de datos, entidades de datos, atributos, glosarios y términos.
Objeto de datos
Un objeto de datos en Data Catalog hace referencia a activos de datos y entidades de datos.
Entidad de datos
Una entidad de datos es una recopilación de datos, como una vista o tabla de base de datos, o un único archivo lógico. Una entidad de datos suele tener muchos atributos que describen sus datos.
Patrón de nombre de archivo
Un patrón de nombre de archivo es una expresión regular que se crea para agrupar varios archivos de Object Storage en una entidad de datos lógica.
Entidad de datos lógica
Una entidad de datos lógica es un grupo de archivos de Object Storage que se derivan mediante la creación y la asignación de patrones de nombre de archivo a un activo de datos.
Atributo
Un atributo describe un elemento de los datos con un nombre y un tipo de datos. Por ejemplo, una columna en una tabla o un campo de un archivo.
Propiedad personalizada
Una propiedad personalizada se crea para enriquecer objetos de catálogo de datos con contexto de negocio.
Glosario
Un glosario es un conjunto de conceptos de negocio de una compañía. Un glosario se compone de categorías y términos de negocio.
Categoría
Se crea una categoría en un glosario para agrupar los términos de negocio relacionados de forma lógica. Puede crear una categoría dentro de otra para agrupar los términos.
Término
Los términos son las definiciones reales de conceptos de negocio según lo acordado por varias partes interesadas de la compañía. Utilice términos para organizar las entidades de datos y los atributos.
Etiqueta de Data Catalog
Las etiquetas son etiquetas de formato libre o palabras clave que crea para identificar lógicamente los objetos de datos. Las etiquetas ayudan en la clasificación y el descubrimiento de los metadatos. Se crean etiquetas para activos de datos, entidades de datos y atributos. Con las etiquetas, puede buscar todos los objetos de datos etiquetados con un nombre de etiqueta específico.
Trabajo
Tarea que ejecuta el proceso de recogida. Un trabajo se puede crear y ejecutar inmediatamente, planificar para que se ejecute con una frecuencia especificada o crear y ejecutar cuando sea necesario.
Programa
Trabajo automático que se puede ejecutar por hora, diariamente, semanalmente o mensualmente.

Formas de acceder a Data Catalog

Acceda a Data Catalog con la consola, la API de REST, los SDK o la CLI.

Utilice cualquiera de las siguientes opciones, según sus preferencias y su idoneidad para la tarea que desea completar:

  • La consola es una interfaz fácil de usar basada en explorador. Para obtener una lista de los exploradores soportados, consulte Exploradores soportados.

    Para ir a la página de inicio de sesión, utilice el enlace Consola de la parte superior de esta página. Se le solicitará que introduzca el inquilino en la nube, el nombre de usuario y la contraseña.

    .
  • Las API de REST ofrecen la mayor funcionalidad, pero requieren experiencia en programación. Referencia de API y puntos finales proporciona información detallada sobre los puntos finales y los vínculos a los documentos de referencia de la API disponibles.
  • Oracle Cloud Infrastructure proporciona SDK que interactúan con Data Catalog sin necesidad de crear un marco.
  • La interfaz de línea de comandos (CLI) proporciona un acceso rápido y una funcionalidad completa sin necesidad de programación.

Identificadores de recursos

El recurso de Data Catalog tiene un identificador único asignado por Oracle denominado ID de Oracle Cloud (OCID).

Regiones y dominios de disponibilidad

Data Catalog está disponible en todas las regiones mencionadas en Regiones y dominios de disponibilidad. Las regiones y los dominios de disponibilidad indican la organización física y lógica de los recursos de Data Catalog. Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en una región.

Límites y cuotas

Límites de servicio

Data Catalog establece un límite de dos instancias de Data Catalog por región.

Cuotas de compartimento

Puede limitar el número de recursos de Data Catalog en un compartimento creando un límite de cuota. Por ejemplo:

set data-catalog quota catalog-count to 1 in compartment <MyCompartment>

Servicios integrados

Data Catalog se integra con varios servicios y funciones.

IAM

Data Catalog se integra con IAM para autenticación y autorización en todas las interfaces (consola, SDK, CLI y API de REST).

Un administrador de la compañía debe configurar grupos, compartimentos y políticas que controlen quién puede acceder a diferentes recursos y servicios, y el tipo de acceso. Por ejemplo, las políticas controlan quién puede crear usuarios, crear y gestionar la red en la nube, crear instancias, crear cubos y descargar objetos.

Si es un usuario común (no un administrador) que necesita utilizar los recursos de Oracle Cloud Infrastructure que posee su compañía, póngase en contacto con el administrador para que configure su identificador de usuario. El administrador puede confirmar los compartimentos que puede utilizar.

Se pueden crear políticas comunes para autorizar a los usuarios de Data Catalog. También puede crear políticas de Data Catalog para controlar el acceso de los usuarios a Data Catalog.

Eventos

Data Catalog se integra con el servicio de eventos. Consulte Eventos de Data Catalog.

Búsqueda

Oracle Cloud Infrastructure Search le permite buscar recursos en su arrendamiento sin tener que desplazarse por los diferentes servicios y compartimentos. Puede buscar el tipo de recurso datacatalog en las consultas de búsqueda.

Explorador del arrendamiento

El explorador del arrendamiento le permite ver todos sus recursos en un compartimento específico, en todas las regiones. El explorador del arrendamiento está basado en el servicio de búsqueda y soporta el tipo de recurso datacatalog de Data Catalog.

Supervisión

Oracle Cloud Infrastructure Monitoring le permite supervisar de forma activa y pasiva los recursos de Data Catalog mediante las funciones de métricas y alarmas.

Las métricas de Data Catalog le ayudan a medir:

  • El número de objetos almacenados en la instancia de Data Catalog.
  • El número de objetos recopilados.
  • El tiempo empleado para recopilar los objetos.
  • Los errores encontrados durante la recopilación.