Consulta de datos externos con Data Catalog
Oracle Cloud Infrastructure Data Catalog es el servicio de gestión de metadatos de Oracle Cloud que le ayuda a detectar datos y a soportar la gobernanza de datos. Proporciona un inventario de activos, un glosario de negocio y un metastore común para lagos de datos.
Autonomous Database puede aprovechar estos metadatos para simplificar drásticamente la gestión para acceder al almacén de objetos de su lago de datos. En lugar de definir tablas externas manualmente para acceder al lago de datos, utilice las tablas externas que se definen y gestionan automáticamente. Estas tablas se encontrarán en los esquemas protegidos de Autonomous Database que se mantienen actualizados con los cambios en Data Catalog.
Para obtener más información sobre Data Catalog, consulte la documentación de Data Catalog.
- Acerca de la consulta con Data Catalog
Al sincronizar con los metadatos de Data Catalog, Autonomous Database crea automáticamente tablas externas para cada entidad lógica que recopile Data Catalog. Estas tablas externas se definen en los esquemas de base de datos que gestiona completamente el proceso de sincronización de metadatos. Los usuarios pueden consultar datos inmediatamente sin tener que derivar manualmente el esquema (columnas y tipos de datos) para orígenes de datos externos y crear manualmente tablas externas. - Conceptos relacionados con las consultas con Data Catalog
Es necesario comprender los siguientes conceptos para realizar consultas con Data Catalog. - Asignación de sincronización
El proceso de sincronización crea y actualiza esquemas y tablas externas de Autonomous Database basados en activos de datos, carpetas, entidades lógicas, atributos y sustituciones personalizadas relevantes de Data Catalog. - Flujo de trabajo típico con Data Catalog
Hay un flujo de trabajo típico de acciones realizadas por usuarios que desean consultar con Data Catalog. - Ejemplo: escenario MovieStream
En este escenario, Moviestream está capturando datos en una zona de llegada en Object Storage. Gran parte de estos datos, pero no necesariamente todos, se utilizan para suministrar información a una instancia de Autonomous Database. Antes de proporcionar información a Autonomous Database, los datos se transforman, limpian y, posteriormente, se almacenan en el área "dorada". - Ejemplo: escenario de datos particionados
Este escenario ilustra cómo crear tablas externas en Autonomous Database basadas en entidades lógicas de Data Catalog recogidas a partir de datos particionados en el almacén de objetos.
Tema principal: Consulta de datos externos con Autonomous Database
Acerca de las consultas con Data Catalog
Mediante la sincronización con los metadatos de Data Catalog, Autonomous Database crea automáticamente tablas externas para cada entidad lógica que recopile Data Catalog. Estas tablas externas se definen en los esquemas de base de datos que gestiona completamente el proceso de sincronización de metadatos. Los usuarios pueden consultar datos inmediatamente sin tener que derivar manualmente el esquema (columnas y tipos de datos) para orígenes de datos externos y crear manualmente tablas externas.
La sincronización es dinámica y permite mantener la actualización de Autonomous Database con respecto a los cambios en los datos subyacentes, lo que reduce el costo de administración, ya que mantiene automáticamente cientos a miles de tablas. También permite que varias instancias de Autonomous Database compartan el mismo Data Catalog, lo que reduce aún más los costos de gestión y proporciona un juego común de definiciones de negocio.
Los bloques o las carpetas de Data Catalog son contenedores que se sincronizan con los esquemas de Autonomous Database. Las entidades lógicas de esas carpetas o cubos se asignan a tablas externas de Autonomous Database. Estos esquemas y tablas externas se generan y mantienen automáticamente mediante el proceso de sincronización:
- Las carpetas o los cubos se asignan a esquemas de base de datos que solo tienen fines organizativos.
- La organización está diseñada para ser coherente con el lago de datos y minimizar la confusión al acceder a los datos a través de diferentes rutas.
- Data Catalog es la fuente de datos de las tablas incluidas en los esquemas. Los cambios realizados en Data Catalog actualizarán las tablas del esquema durante una sincronización posterior.
Para utilizar esta capacidad, un administrador de Data Catalog de base de datos inicia una conexión a una instancia de Data Catalog, selecciona los activos de datos y las entidades lógicas que se van a sincronizar y ejecuta la sincronización. El proceso de sincronización crea esquemas y tablas externas en función de los activos de datos y las entidades lógicas seleccionados y recopilados de Data Catalog. Tan pronto como se crean las tablas externas, los analistas de datos pueden empezar a consultar sus datos sin tener que derivar manualmente el esquema para los orígenes de datos externos y crear tablas externas.
El paquete
DBMS_DCAT
está disponible para realizar las tareas necesarias para consultar los activos de datos del almacén de objetos de Data Catalog. Consulte Paquete DBMS_DCAT.
Tema principal: Consulta de datos externos con Data Catalog
Conceptos relacionados con las consultas con Data Catalog
Es necesario comprender los siguientes conceptos para consultar con Data Catalog.
- Catálogo de datos
-
Data Catalog recopila activos de datos que apuntan a los orígenes de datos del almacén de objetos que desea consultar con Autonomous Database. En Data Catalog, puede especificar cómo se organizan los datos durante la recogida, soportando diferentes patrones de organización de archivos. Como parte del proceso de recogida de Data Catalog, puede seleccionar los cubos y archivos que desea gestionar en el activo. Para obtener más información, consulte Descripción general de Data Catalog.
- Almacenes de Objetos
-
Los almacenes de objetos tienen cubos que contienen una variedad de objetos. Algunos tipos comunes de objetos encontrados en estos cubos incluyen: archivos CSV, parquet, avro, json y ORC. Los bloques suelen tener una estructura o un patrón de diseño para los objetos que contienen. Hay muchas formas diferentes de estructurar los datos y muchas formas diferentes de interpretar estos patrones.
Por ejemplo, un patrón de diseño típico utiliza carpetas de nivel superior que representan tablas. Los archivos de una carpeta determinada comparten el mismo esquema y contienen datos para esa tabla. Las subcarpadas se suelen utilizar para representar particiones de tabla (por ejemplo, una subcarpeta para cada día). Data Catalog hace referencia a cada carpeta de nivel superior como una entidad lógica y esta entidad lógica se asigna a una tabla externa de Autonomous Database.
- Conexión
-
Una conexión es una conexión de Autonomous Database a una instancia de Data Catalog. Para cada instancia de Autonomous Database puede haber conexiones a varias instancias de Data Catalog. La credencial de Autonomous Database debe tener derechos para acceder a los activos de Data Catalog que se hayan recopilado desde el almacenamiento de objetos.
- Recogida
-
Un proceso de Data Catalog que explora el almacenamiento de objetos y genera las entidades lógicas a partir de los juegos de datos.
- Activo de datos
-
Un activo de datos de Data Catalog representa un origen de datos, que incluye bases de datos, Oracle Object Storage, Kafka, etc. Autonomous Database aprovecha los activos de Oracle Object Storage para la sincronización de metadatos.
- Entidad de datos
-
Una entidad de datos de Data Catalog es una recopilación de datos, como una tabla o una vista de base de datos, o un único archivo, y normalmente tiene muchos atributos que describen los datos.
- Entidad lógica
-
En los lagos de datos, muchos archivos normalmente constan de una única entidad lógica. Por ejemplo, puede tener archivos de flujo de clics diarios y estos archivos comparten el mismo esquema y tipo de archivo.
Una entidad lógica de Data Catalog es un grupo de archivos de Object Storage que se derivan durante la recogida mediante la aplicación de patrones de nombre de archivo que se han creado y asignado a un activo de datos.
- Objeto de Datos
-
Un objeto de datos en Data Catalog hace referencia a activos de datos y entidades de datos.
- Patrón de nombre de archivo
-
En un lago de datos, los datos se pueden organizar de distintas formas. Normalmente, las carpetas capturan archivos del mismo esquema y tipo. Debe registrarse en Data Catalog para saber cómo se organizan los datos. Los patrones de nombre de archivo se utilizan para identificar cómo se organizan los datos. En Data Catalog, puede definir patrones de nombre de archivo mediante expresiones regulares. Cuando Data Catalog recopila un activo de datos con un patrón de nombre de archivo asignado, se crean entidades lógicas basadas en el patrón de nombre de archivo. Al definir y asignar estos patrones a los activos de datos, se pueden agrupar varios archivos como entidades lógicas basadas en el patrón de nombre de archivo.
- Sincronizar (sinc)
-
Autonomous Database realiza sincronizaciones con Data Catalog para mantener automáticamente actualizada su base de datos con respecto a los cambios en los datos subyacentes. La sincronización se puede realizar manualmente o según un programa.
El proceso de sincronización crea esquemas y tablas externos basados en los activos de datos y las entidades lógicas de Data Catalog. Estos esquemas están protegidos, lo que significa que sus metadatos los gestiona Data Catalog. Si desea modificar los metadatos, debe realizar los cambios en Data Catalog. Los esquemas de Autonomous Database reflejarán cualquier cambio después de ejecutar la siguiente sincronización. Para obtener más información, consulte Asignación de sincronizaciones.
Tema principal: Consulta de datos externos con Data Catalog
Asignación de sincronizaciones
El proceso de sincronización crea y actualiza esquemas y tablas externos de Autonomous Database basados en activos de datos, carpetas, entidades lógicas, atributos y sustituciones personalizadas relevantes de Data Catalog.
Catálogo de datos | Autonomous Database | Descripción de Asignación |
---|---|---|
Activo de datos y carpeta (bloque de almacenamiento de objetos) |
Nombre del Esquema |
Valores por defecto: Por defecto, el nombre de esquema generado en Autonomous Database tiene el siguiente formato:
Personalizaciones: Los valores por defectodata-asset-name y folder-name se pueden personalizar definiendo propiedades personalizadas, nombres de negocio y nombres mostrados para sustituir estos nombres por defecto.
Ejemplos:
|
Entidad lógica | Tabla Externa |
Las entidades lógicas se asignan a tablas externas. Si la entidad lógica tiene un atributo particionado, se asigna a una tabla externa particionada. El nombre de la tabla externa se deriva del nombre mostrado o del nombre de negocio de la entidad lógica correspondiente. Si se define Por ejemplo, si |
Atributos de la entidad lógica | Columnas de tabla externa |
Nombre de columna: los nombres de columna de la tabla externa se derivan de los nombres mostrados de atributo de la entidad lógica correspondiente o de negocio. Para entidades lógicas derivadas de archivos de Parquet, Avro y ORC, el nombre de columna siempre es el nombre mostrado del atributo, ya que representa el nombre de campo derivado de los archivos de origen. Para los atributos correspondientes a una entidad lógica derivada de archivos CSV, se utilizan los siguientes campos de atributo en orden de prioridad para generar el nombre de columna:
Tipo de columna: la propiedad personalizada Para los atributos correspondientes a una entidad lógica derivada de archivos Avro con los tipos de datos Longitud de columna: la propiedad personalizada Precisión de columna: la propiedad personalizada Para los atributos correspondientes a una entidad lógica derivada de archivos Avro con los tipos de datos Escala de columna: la propiedad personalizada |
Tema principal: Consulta de datos externos con Data Catalog
Flujo de trabajo típico con Data Catalog
Hay un flujo de trabajo típico de acciones realizadas por usuarios que desean consultar con Data Catalog.
El administrador de consultas de Data Catalog de la base de datos o el administrador de la base de datos otorgan acceso READ a las tablas externas generadas para que los analistas de datos y otros usuarios de la base de datos puedan examinar y consultar las tablas externas.
En la siguiente tabla, se describe en detalle cada una de las acciones. Para obtener una descripción de los diferentes tipos de usuario incluidos en esta tabla, consulte Usuarios y roles de Data Catalog.
El paquete
DBMS_DCAT
está disponible para realizar las tareas necesarias para consultar los activos de datos del almacén de objetos de Data Catalog. Consulte Paquete DBMS_DCAT.
Action | Quién es el usuario | Descripción |
---|---|---|
Creación de políticas |
Administrador de base de datos de Data Catalog |
La entidad de recurso de Autonomous Database o la credencial de usuario de Autonomous Database deben tener los permisos adecuados para gestionar Data Catalog y leer desde Object Storage. Más información: Las credenciales y las políticas de IAM necesarias. |
Crear credenciales |
Administrador de base de datos de Data Catalog |
Asegúrese de que las credenciales de base de datos están activas para acceder a Data Catalog y consultar el almacén de objetos. El usuario llama a Más información: DBMS_CLOUD CREATE_CREDENTIAL Procedimiento Uso de la entidad de recurso con DBMS_CLOUD. |
Creación de conexiones a Data Catalog |
Administrador de base de datos de Data Catalog |
Para iniciar una conexión entre una instancia de Autonomous Database y una instancia de Data Catalog, el usuario llama a La conexión a la instancia de Data Catalog debe utilizar un objeto de credencial de base de datos con suficientes privilegios de Oracle Cloud Infrastructure (OCI). Por ejemplo, se puede utilizar el token de servicio entidad de recurso para la instancia de Autonomous Database o un usuario de OCI con privilegios suficientes. Una vez realizada la conexión, la instancia de Data Catalog se actualiza con el espacio de nombres
DBMS_DCAT y las propiedades personalizadas (si aún no existen). El usuario puede ejecutar una consulta para ver la nueva conexión, incluidas todas las conexiones actuales:
More information: SET_DATA_CATALOG_CONN Procedure, UNSET_DATA_CATALOG_CONN Procedure. |
Crear una sincronización de selección |
Administrador de base de datos de Data Catalog |
Cree un trabajo de sincronización seleccionando los objetos de Data Catalog que desea sincronizar. El usuario puede:
Más información: consulte CREATE_SYNC_JOB Procedure, DROP_SYNC_JOB Procedure, Synchronization Mapping |
Sincronizar con Data Catalog |
Administrador de base de datos de Data Catalog |
El usuario inicia una operación de sincronización. La sincronización se inicia manualmente mediante la llamada al procedimiento La operación de sincronización permite crear, modificar y borrar tablas y esquemas externos según el contenido de Data Catalog y las selecciones de sincronización. La configuración manual se aplica mediante las propiedades personalizadas de Data Catalog. Más información: consulte RUN_SYNC Procedure, CREATE_SYNC_JOB Procedure, Synchronization Mapping |
Supervisión de la sincronización y visualización de logs |
Administrador de base de datos de Data Catalog |
El usuario puede ver el estado de sincronización consultando la vista USER_LOAD_OPERATIONS . Una vez completado el proceso de sincronización, el usuario puede ver un log de los resultados de la sincronización, incluidos los detalles sobre las asignaciones de entidades lógicas a tablas externas.
Más información: Supervisión y solución de problemas de cargas |
Otorgar Privilegios |
Administrador de consultas de Data Catalog de base de datos, administrador de base de datos |
El administrador de consultas o el administrador de la base de datos de Data Catalog deben otorgar permiso READ en las tablas externas generadas a los usuarios del analista de datos. Esto permite a los analistas de datos consultar las tablas externas generadas. |
Examen y consulta de tablas externas |
Analista de datos |
Los analistas de datos pueden consultar las tablas externas mediante cualquier herramienta o aplicación que soporte Oracle SQL. Los analistas de datos pueden revisar los esquemas y tablas sincronizados en los esquemas DCAT$* y consultar las tablas mediante Oracle SQL. Más información: Asignación de sincronizaciones |
Terminación de conexiones en Data Catalog |
Administrador de base de datos de Data Catalog |
Para eliminar una asociación de Data Catalog existente, el usuario llama al procedimiento UNSET_DATA_CATALOG_CONN. Esta acción solo se realiza cuando ya no tenga previsto utilizar Data Catalog y las tablas externas que se derivan del catálogo. Con esta acción se suprimirán los metadatos de Data Catalog y se borrarán las tablas externas sincronizadas de la instancia de Autonomous Database. Las propiedades personalizadas de Data Catalog y las políticas de OCI no se ven afectadas. Más información: UNSET_DATA_CATALOG_CONN Procedimiento |
Tema principal: Consulta de datos externos con Data Catalog
Ejemplo: escenario MovieStream
En este escenario, Moviestream está capturando datos en una zona de llegada en Object Storage. Gran parte de estos datos, pero no necesariamente todos, se utilizan para suministrar información a una instancia de Autonomous Database. Antes de proporcionar información a Autonomous Database, los datos se transforman, limpian y, posteriormente, se almacenan en el área "dorada".
Data Catalog se utiliza para recopilar estos orígenes y, a continuación, proporcionar un contexto de negocio a los datos. Los metadatos de Data Catalog se comparten con Autonomous Database, lo que permite a los usuarios de Autonomous Database consultar esos orígenes de datos mediante Oracle SQL. Estos datos se pueden cargar en Autonomous Database o consultar dinámicamente mediante tablas externas.
Para obtener más información sobre el uso de Data Catalog, consulte Documentación de Data Catalog.
Tema principal: Consulta de datos externos con Data Catalog
Ejemplo: escenario de datos particionados
En este escenario se ilustra cómo crear tablas externas en Autonomous Database basadas en entidades lógicas de Data Catalog recogidas a partir de datos particionados en el almacén de objetos.
El siguiente ejemplo se basa en Ejemplo: escenario MovieStream y se ha adaptado para demostrar la integración con datos particionados. Data Catalog se utiliza para recopilar estos orígenes y, a continuación, proporcionar un contexto de negocio a los datos. Para obtener más detalles sobre este ejemplo, consulte Ejemplo: MovieStream Escenario.
Para obtener más información sobre el uso de Data Catalog, consulte Documentación de Data Catalog.
Tema principal: Consulta de datos externos con Data Catalog