Visión general de Data Catalog
Data Catalog es un servicio de gestión de metadatos que ayuda a los consumidores de datos a detectar datos y mejorar la gobernanza del ecosistema de Oracle.
Con OCI Data Catalog, los analistas de datos, los científicos de datos, los ingenieros de datos y los administradores de datos tienen un único entorno de autoservicio para descubrir los datos disponibles en las fuentes en la nube. Data Catalog ayuda a los proveedores de datos a crear un diccionario de datos que incluye metadatos técnicos y empresariales. Los consumidores de datos pueden evaluar fácilmente la idoneidad de los datos para proyectos de análisis y ciencia de datos.
Capacidades clave de Data Catalog
- Recopile metadatos técnicos de una amplia gama de orígenes de datos soportados a los que se pueda acceder mediante IP públicas o privadas.
- Crear y gestionar un vocabulario de empresa común con un glosario de negocio. Crear una jerarquía de categorías, subcategorías y términos con descripciones de texto enriquecido detalladas.
- Enriquecer los metadatos técnicos recogidos con anotaciones vinculando entidades de datos y atributos a términos de negocio, propiedades definidas por el usuario o agregando etiquetas de formato libre.
- Buscar la información necesaria explorando los activos de datos, examinando el catálogo de datos o utilizando la barra de búsqueda rápida.
- Automatizar y gestionar los trabajos de recogida mediante programas.
- Integrar las capacidades empresariales del catálogo de datos con otras aplicaciones mediante las API de REST y los SDK.
Conceptos de Data Catalog
Es esencial comprender los siguientes conceptos para utilizar Data Catalog.
- Activo de datos
- Representa un origen de datos, como una base de datos, un almacén de objetos, un almacén de archivos o documentos, una cola de mensajes o una aplicación.
- Conexión
- Incluye los detalles necesarios para establecer una conexión con un origen de datos. Una conexión siempre está asociada a un activo de datos. Un activo de datos puede tener más de una conexión.
- Tipo de conexión
- Define las distintas propiedades disponibles en una conexión para conectarse a un activo de datos.
- Recogida
- Proceso que extrae en el repositorio del catálogo de datos metadatos técnicos de los orígenes de datos conectados.
- Objeto
- Un objeto de Data Catalog hace referencia a cualquier objeto gestionado en el catálogo de datos, como activos de datos, entidades de datos, atributos, glosarios y términos.
- Objeto de datos
- Un objeto de datos en Data Catalog hace referencia a activos de datos y entidades de datos.
- Entidad de datos
- Una entidad de datos es una recopilación de datos, como una vista o tabla de base de datos, o un único archivo lógico. Una entidad de datos suele tener muchos atributos que describen sus datos.
- Patrón de nombre de archivo
- Un patrón de nombre de archivo es una expresión regular que se crea para agrupar varios archivos de Object Storage en una entidad de datos lógica.
- Entidad de datos lógica
- Una entidad de datos lógica es un grupo de archivos de Object Storage que se derivan mediante la creación y la asignación de patrones de nombre de archivo a un activo de datos.
- Atributo
- Un atributo describe un elemento de los datos con un nombre y un tipo de datos. Por ejemplo, una columna en una tabla o un campo de un archivo.
- Propiedad personalizada
- Una propiedad personalizada se crea para enriquecer objetos de catálogo de datos con contexto de negocio.
- Glosario
- Un glosario es un conjunto de conceptos de negocio de una compañía. Un glosario se compone de categorías y términos de negocio.
- Categoría
- Se crea una categoría en un glosario para agrupar los términos de negocio relacionados de forma lógica. Puede crear una categoría dentro de otra para agrupar los términos.
- Término
- Los términos son las definiciones reales de conceptos de negocio según lo acordado por varias partes interesadas de la compañía. Utilice términos para organizar las entidades de datos y los atributos.
- Etiqueta de Data Catalog
- Las etiquetas son etiquetas de formato libre o palabras clave que crea para identificar lógicamente los objetos de datos. Las etiquetas ayudan en la clasificación y el descubrimiento de los metadatos. Se crean etiquetas para activos de datos, entidades de datos y atributos. Con las etiquetas, puede buscar todos los objetos de datos etiquetados con un nombre de etiqueta específico.
- Trabajo
- Tarea que ejecuta el proceso de recogida. Un trabajo se puede crear y ejecutar inmediatamente, planificar para que se ejecute con una frecuencia especificada o crear y ejecutar cuando sea necesario.
- Programa
- Trabajo automático que se puede ejecutar por hora, diariamente, semanalmente o mensualmente.
Formas de acceder a Data Catalog
Acceda a Data Catalog con la consola, la API de REST, los SDK o la CLI.
Utilice cualquiera de las siguientes opciones, según sus preferencias y su idoneidad para la tarea que desea completar:
- La consola es una interfaz fácil de usar basada en explorador. Para obtener una lista de los exploradores soportados, consulte Exploradores soportados.
Para ir a la página de inicio de sesión, utilice el enlace Consola de la parte superior de esta página. Se le solicitará que introduzca el inquilino en la nube, el nombre de usuario y la contraseña.
. - Las API de REST ofrecen la mayor funcionalidad, pero requieren experiencia en programación. Referencia de API y puntos finales proporciona información detallada sobre los puntos finales y los vínculos a los documentos de referencia de la API disponibles.
- Oracle Cloud Infrastructure proporciona SDK que interactúan con Data Catalog sin necesidad de crear un marco.
- La interfaz de línea de comandos (CLI) proporciona un acceso rápido y una funcionalidad completa sin necesidad de programación.
Identificadores de recursos
El recurso de Data Catalog tiene un identificador único asignado por Oracle denominado ID de Oracle Cloud (OCID).
Regiones y dominios de disponibilidad
Data Catalog está disponible en todas las regiones mencionadas en Regiones y dominios de disponibilidad. Las regiones y los dominios de disponibilidad indican la organización física y lógica de los recursos de Data Catalog. Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en una región.
Límites y cuotas
Límites de servicio
Data Catalog establece un límite de dos instancias de Data Catalog por región.
Cuotas de compartimento
Puede limitar el número de recursos de Data Catalog en un compartimento creando un límite de cuota. Por ejemplo:
set data-catalog quota catalog-count to 1 in compartment <MyCompartment>
Servicios integrados
Data Catalog se integra con varios servicios y funciones.
Data Catalog se integra con IAM para autenticación y autorización en todas las interfaces (consola, SDK, CLI y API de REST).
Un administrador de la compañía debe configurar grupos, compartimentos y políticas que controlen quién puede acceder a diferentes recursos y servicios, y el tipo de acceso. Por ejemplo, las políticas controlan quién puede crear usuarios, crear y gestionar la red en la nube, crear instancias, crear cubos y descargar objetos.
Si es un usuario común (no un administrador) que necesita utilizar los recursos de Oracle Cloud Infrastructure que posee su compañía, póngase en contacto con el administrador para que configure su identificador de usuario. El administrador puede confirmar los compartimentos que puede utilizar.
Se pueden crear políticas comunes para autorizar a los usuarios de Data Catalog. También puede crear políticas de Data Catalog para controlar el acceso de los usuarios a Data Catalog.
Data Catalog se integra con la API de solicitudes de trabajo común. Consulte Solicitudes de trabajo de Data Catalog.
Data Catalog se integra con el servicio de eventos. Consulte Eventos de Data Catalog.
Oracle Cloud Infrastructure Search le permite buscar recursos en su arrendamiento sin tener que desplazarse por los diferentes servicios y compartimentos. Puede buscar el tipo de recurso datacatalog
en las consultas de búsqueda.
El explorador del arrendamiento le permite ver todos sus recursos en un compartimento específico, en todas las regiones. El explorador del arrendamiento está basado en el servicio de búsqueda y soporta el tipo de recurso datacatalog
de Data Catalog.
Oracle Cloud Infrastructure Monitoring le permite supervisar de forma activa y pasiva los recursos de Data Catalog mediante las funciones de métricas y alarmas.
Las métricas de Data Catalog le ayudan a medir:
- El número de objetos almacenados en la instancia de Data Catalog.
- El número de objetos recopilados.
- El tiempo empleado para recopilar los objetos.
- Los errores encontrados durante la recopilación.