Consulta de datos externos con Data Catalog
Oracle Cloud Infrastructure Data Catalog es el servicio de gestión de metadatos de Oracle Cloud que le ayuda a detectar datos y a soportar la gobernanza de datos. Proporciona un inventario de activos, un glosario de negocio y un metastore común para lagos de datos.
Autonomous Database puede aprovechar estos metadatos para simplificar drásticamente la gestión para el acceso al almacén de objetos del lago de datos. En lugar de definir manualmente tablas externas para acceder al lago de datos, utilice las tablas externas que se definen y gestionan automáticamente. Estas tablas se encontrarán en esquemas protegidos de Autonomous Database que se mantienen actualizados con los cambios en Data Catalog.
Para obtener más información sobre Data Catalog, consulte la documentación de Data Catalog.
- Acerca de la consulta con Data Catalog
Al sincronizar con los metadatos de Data Catalog, Autonomous Database crea automáticamente tablas externas para cada entidad lógica recogida por Data Catalog. Estas tablas externas se definen en esquemas de base de datos que se gestionan por completo mediante el proceso de sincronización de metadatos. Los usuarios pueden consultar datos inmediatamente sin tener que derivar manualmente el esquema (columnas y tipos de dato) para orígenes de datos externos y crear tablas externas manualmente. - Conceptos relacionados con la consulta con Data Catalog
Para realizar consultas con Data Catalog es necesario comprender los siguientes conceptos. - Asignación de sincronización
El proceso de sincronización crea y actualiza esquemas y tablas externas de Autonomous Database en función de los activos de datos, las carpetas, las entidades lógicas, los atributos y las sustituciones personalizadas relevantes de Data Catalog. - Flujo de trabajo típico con Data Catalog
Hay un flujo de trabajo típico de acciones realizadas por usuarios que desean consultar con Data Catalog. - Ejemplo: escenario MovieStream
En este escenario, Moviestream está capturando datos en una zona de llegada en Object Storage. Gran parte de estos datos, pero no necesariamente todos, se utilizan para alimentar una instancia de Autonomous Database. Antes de alimentar Autonomous Database, los datos se transforman, limpian y, posteriormente, se almacenan en el área de "oro". - Ejemplo: escenario de datos particionados
Este escenario ilustra cómo crear tablas externas en Autonomous Database basadas en entidades lógicas de Data Catalog recopiladas de datos particionados en el almacén de objetos.
Tema principal: Consulta de los datos externos con Autonomous Database
Acerca de las consultas con Data Catalog
Al sincronizar con los metadatos de Data Catalog, Autonomous Database crea automáticamente tablas externas para cada entidad lógica recogida por Data Catalog. Estas tablas externas se definen en esquemas de base de datos que se gestionan por completo mediante el proceso de sincronización de metadatos. Los usuarios pueden consultar datos inmediatamente sin tener que derivar manualmente el esquema (columnas y tipos de dato) para orígenes de datos externos y crear tablas externas manualmente.
La sincronización es dinámica y mantiene la instancia de Autonomous Database actualizada con respecto a los cambios en los datos subyacentes, lo que reduce los costos de administración, ya que mantiene automáticamente de cientos a miles de tablas. También permite que varias instancias de Autonomous Database compartan el mismo catálogo de datos, lo que reduce aún más los costos de gestión y proporciona un juego común de definiciones de negocio.
Las carpetas/cubos de Data Catalog son contenedores que se sincronizan con los esquemas de Autonomous Database. Las entidades lógicas de esas carpetas/cubos se asignan a las tablas externas de Autonomous Database. Estos esquemas y tablas externas se generan y mantienen automáticamente mediante el proceso de sincronización:
- Las carpetas/cubos se asignan a esquemas de base de datos que sólo tienen fines organizativos.
- La organización debe ser coherente con el lago de datos y minimizar la confusión al acceder a los datos a través de diferentes rutas.
- Data Catalog es la fuente de datos de las tablas incluidas en los esquemas. Los cambios realizados en Data Catalog actualizan las tablas del esquema durante una sincronización posterior.
Para utilizar esta capacidad, un administrador de Database Data Catalog inicia una conexión a una instancia de Data Catalog, selecciona los activos de datos y las entidades lógicas que se van a sincronizar y ejecuta la sincronización. El proceso de sincronización crea esquemas y tablas externas en función de los activos de datos recopilados y las entidades lógicas seleccionados de Data Catalog. Tan pronto como se crean las tablas externas, los analistas de datos pueden empezar a consultar sus datos sin tener que derivar manualmente el esquema para orígenes de datos externos y crear tablas externas.
El paquete
DBMS_DCAT
está disponible para realizar las tareas necesarias para consultar los activos de datos del almacén de objetos de Data Catalog. Consulte DBMS_DCAT Package.
Tema principal: Consulta de datos externos con Data Catalog
Conceptos relacionados con consultas con Data Catalog
Para realizar consultas con Data Catalog es necesario comprender los siguientes conceptos.
- Catálogo de datos
-
Data Catalog recopila activos de datos que apuntan a los orígenes de datos del almacén de objetos que desea consultar con Autonomous Database. En Data Catalog, puede especificar cómo se organizan los datos durante la recopilación, soportando diferentes patrones de organización de archivos. Como parte del proceso de recogida de Data Catalog, puede seleccionar los cubos y archivos que desea gestionar dentro del activo. Para obtener más información, consulte Visión general de Data Catalog.
- Almacenes de Objetos
-
Los almacenes de objetos tienen cubos que contienen una variedad de objetos. Algunos tipos comunes de objetos que se encuentran en estos cubos incluyen: archivos CSV, parquet, avro, json y ORC. Los cubos generalmente tienen una estructura o un patrón de diseño para los objetos que contienen. Hay muchas formas diferentes de estructurar los datos y muchas formas diferentes de interpretar estos patrones.
Por ejemplo, un patrón de diseño típico utiliza carpetas de nivel superior que representan tablas. Los archivos de una carpeta determinada comparten el mismo esquema y contienen datos para esa tabla. Las subcarpetas se utilizan a menudo para representar particiones de tabla (por ejemplo, una subcarpeta para cada día). Data Catalog hace referencia a cada carpeta de nivel superior como entidad lógica y esta entidad lógica se asigna a una tabla externa de Autonomous Database.
- Conexión
-
Una conexión es una conexión de Autonomous Database a una instancia de Data Catalog. Para cada instancia de Autonomous Database, puede haber conexiones a varias instancias de Data Catalog. La credencial de Autonomous Database debe tener derechos para acceder a los activos de Data Catalog que se han recopilado desde Object Storage.
- Recogida
-
Proceso de Data Catalog que explora el almacenamiento de objetos y genera las entidades lógicas a partir de los juegos de datos.
- Activo de datos
-
Un activo de datos de Data Catalog representa un origen de datos, que incluye bases de datos, Oracle Object Storage y Kafka, entre otros. Autonomous Database aprovecha los activos de Oracle Object Storage para la sincronización de metadatos.
- Entidad de datos
-
Una entidad a los datos de Data Catalog es una recopilación de los datos, como una tabla o vista, o un único archivo, y normalmente tiene muchos atributos que describen sus datos.
- Entidad lógica
-
En los lagos de datos, muchos archivos suelen constar de una sola entidad lógica. Por ejemplo, puede tener archivos de flujo de clics diarios y estos archivos comparten el mismo esquema y tipo de archivo.
Una entidad lógica de Data Catalog es un grupo de archivos de Object Storage que se derivan durante la recogida mediante la aplicación de patrones de nombre de archivo que se han creado y asignado a un activo de datos.
- Objeto de Datos
-
Un objeto de datos en Data Catalog hace referencia a activos de datos y entidades de datos.
- Patrón de Nombre de archivo
-
En un lago de datos, los datos se pueden organizar de diferentes formas. Normalmente, las carpetas capturan archivos del mismo esquema y tipo. Debe registrarse en Data Catalog como se organizan los datos. Los patrones de nombre de archivo se utilizan para identificar cómo se organizan los datos. En Data Catalog, puede definir patrones de nombre de archivo mediante expresiones regulares. Cuando Data Catalog recopila un activo de datos con un patrón de nombre de archivo asignado, las entidades lógicas se crean en función del patrón de nombre de archivo. Al definir y asignar estos patrones a los activos de datos, se pueden agrupar varios archivos como entidades lógicas en función del patrón de nombre de archivo.
- Sincronizar (Sincronizar)
-
Autonomous Database realiza sincronizaciones con Data Catalog para mantener automáticamente su base de datos actualizada con respecto a los cambios en los datos subyacentes. La sincronización se puede realizar manualmente o según un programa.
El proceso de sincronización crea esquemas y tablas externas en función de los activos de datos y las entidades lógicas de Data Catalog. Estos esquemas están protegidos, lo que significa que sus metadatos los gestiona Data Catalog. Si desea modificar los metadatos, debe realizar los cambios en Data Catalog. Los esquemas de Autonomous Database reflejarán los cambios una vez que se ejecute la siguiente sincronización. Para obtener más información, consulte Asignación de sincronización.
Tema principal: Consulta de datos externos con Data Catalog
Asignación de sincronización
El proceso de sincronización crea y actualiza esquemas y tablas externas de Autonomous Database en función de los activos de datos de Data Catalog, las carpetas, las entidades lógicas, los atributos y las sustituciones personalizadas relevantes.
Catálogo de datos | Autonomous Database | Descripción de asignación |
---|---|---|
Activo de datos y carpeta (cubo de almacenamiento de objetos) |
Nombre de esquema |
Valores predeterminados: Por defecto, el nombre de esquema generado en Autonomous Database tiene el siguiente formato:
Personalizaciones: Los valores por defectodata-asset-name y folder-name se pueden personalizar definiendo propiedades personalizadas, nombres de negocio y nombres mostrados para sustituir estos nombres por defecto.
Ejemplos:
|
Entidad lógica | Tabla Externa |
Las entidades lógicas se asignan a tablas externas. Si la entidad lógica tiene un atributo particionado, se asigna a una tabla externa particionada. El nombre de la tabla externa se deriva del nombre mostrado de la entidad lógica correspondiente o del nombre de negocio. Si se define Por ejemplo, si |
Atributos de entidad lógica | Columnas de tabla externa |
Nombres de columna: los nombres de columna de tabla externa se derivan de los nombres mostrados de atributos de la entidad lógica correspondiente o de los nombres de negocio. Para las entidades lógicas derivadas de los archivos Parquet, Avro y ORC, el nombre de columna siempre es el nombre mostrado del atributo, ya que representa el nombre de campo derivado de los archivos de origen. En el caso de los atributos correspondientes a una entidad lógica derivada de archivos CSV, se utilizan los siguientes campos de atributos en orden de prioridad para generar el nombre de columna:
Tipo de columna: la propiedad personalizada Para los atributos correspondientes a una entidad lógica derivada de archivos Avro con los tipos de dato Longitud de columna: la propiedad personalizada Precisión de columna: la propiedad personalizada Para los atributos correspondientes a una entidad lógica derivada de archivos Avro con los tipos de dato Escala de columna: la propiedad personalizada |
Tema principal: Consulta de datos externos con Data Catalog
Flujo de trabajo típico con el catálogo de datos
Hay un flujo de trabajo típico de acciones realizadas por los usuarios que desean consultar con Data Catalog.
El administrador de consultas del catálogo de datos de la base de datos o el administrador de la base de datos otorga acceso de lectura a las tablas externas generadas para que los analistas de datos y otros usuarios de la base de datos puedan examinar y consultar las tablas externas.
La siguiente tabla describe cada acción en detalle. Para obtener una descripción de los diferentes tipos de usuario incluidos en esta tabla, consulte Usuarios y roles de Data Catalog.
El paquete
DBMS_DCAT
está disponible para realizar las tareas necesarias para consultar los activos de datos del almacén de objetos de Data Catalog. Consulte DBMS_DCAT Package.
Acción | Quién es el usuario | Descripción |
---|---|---|
Crear políticas |
Administrador de catálogo de datos de base de datos |
La entidad de recurso de Autonomous Database o la credencial de usuario de Autonomous Database deben tener los permisos adecuados para gestionar Data Catalog y leer desde Object Storage. Más información: credenciales y políticas de IAM necesarias. |
Crear credenciales |
Administrador de catálogo de datos de base de datos |
Asegúrese de que las credenciales de la base de datos están en su lugar para acceder a Data Catalog y consultar el almacén de objetos. El usuario llama a Más información: procedimiento DBMS_CLOUD CREATE_CREDENTIAL Utilice la entidad de recurso con DBMS_CLOUD. |
Crear conexiones a Data Catalog |
Administrador de catálogo de datos de base de datos |
Para iniciar una conexión entre una instancia de Autonomous Database y una instancia de Data Catalog, el usuario llama a La conexión a la instancia de Data Catalog debe utilizar un objeto de credencial de base de datos con suficientes privilegios de Oracle Cloud Infrastructure (OCI). Por ejemplo, se puede utilizar el token de servicio de entidad de recurso para la instancia de Autonomous Database o un usuario de OCI con privilegios suficientes. Una vez que se ha realizado la conexión, la instancia de Data Catalog se actualiza con el espacio de nombres
DBMS_DCAT y las propiedades personalizadas (si aún no existen). El usuario puede ejecutar una consulta para ver la nueva conexión, incluidas todas las conexiones actuales:
Más información: procedimiento SET_DATA_CATALOG_CONN, procedimiento UNSET_DATA_CATALOG_CONN. |
Crear una sincronización selectiva |
Administrador de catálogo de datos de base de datos |
Cree un trabajo de sincronización seleccionando los objetos de Data Catalog que desea sincronizar. El usuario puede:
Más información: consulte Procedimiento CREATE_SYNC_JOB, Procedimiento DROP_SYNC_JOB, Asignación de sincronización |
Sincronizar con Data Catalog |
Administrador de catálogo de datos de base de datos |
El usuario inicia una operación de sincronización. La sincronización se inicia manualmente mediante la llamada al procedimiento La operación de sincronización crea, modifica y borra tablas y esquemas externos según el contenido de Data Catalog y las selecciones de sincronización. La configuración manual se aplica mediante las propiedades personalizadas de Data Catalog. Más información: consulte Procedimiento RUN_SYNC, Procedimiento CREATE_SYNC_JOB, Asignación de sincronización |
Supervise los logs de sincronización y visualización |
Administrador de catálogo de datos de base de datos |
El usuario puede ver el estado de sincronización consultando la vista USER_LOAD_OPERATIONS . Una vez finalizado el proceso de sincronización, el usuario puede ver un log de los resultados de la sincronización, incluidos los detalles sobre las asignaciones de entidades lógicas a tablas externas.
Más información: Supervisión y solución de problemas de cargas |
Otorgar Privilegios |
Administrador de consultas de Database Data Catalog, administrador de base de datos |
El administrador de consultas de Data Catalog de la base de datos o el administrador de la base de datos deben otorgar READ en las tablas externas generadas a los usuarios del analista de datos. Esto permite a los analistas de datos consultar las tablas externas generadas. |
Examinar y consultar tablas externas |
Analista de datos |
Los analistas de datos pueden consultar las tablas externas a través de cualquier herramienta o aplicación que soporte Oracle SQL. Los analistas de datos pueden revisar los esquemas y las tablas sincronizados en los esquemas DCAT$* y consultar las tablas mediante Oracle SQL. Más información: Asignación de sincronización |
Terminar conexiones a Data Catalog |
Administrador de catálogo de datos de base de datos |
Para eliminar una asociación de Data Catalog existente, el usuario llama al procedimiento UNSET_DATA_CATALOG_CONN. Esta acción sólo se realiza cuando ya no se tiene previsto utilizar Data Catalog y las tablas externas que se derivan del catálogo. Esta acción suprime los metadatos de Data Catalog y borra tablas externas sincronizadas de la instancia de Autonomous Database. Las propiedades personalizadas de Data Catalog y las políticas de OCI no se ven afectadas. Más información: procedimiento UNSET_DATA_CATALOG_CONN |
Tema principal: Consulta de datos externos con Data Catalog
Ejemplo: escenario MovieStream
En este escenario, Moviestream está capturando datos en una zona de llegada del almacenamiento de objetos. Gran parte de estos datos, pero no necesariamente todos, se utilizan para alimentar una instancia de Autonomous Database. Antes de alimentar Autonomous Database, los datos se transforman, limpian y, posteriormente, se almacenan en el área de "oro".
Data Catalog se utiliza para recopilar estos orígenes y, a continuación, proporcionar un contexto de negocio a los datos. Los metadatos de Data Catalog se comparten con Autonomous Database, lo que permite a los usuarios de Autonomous Database consultar esos orígenes de datos mediante Oracle SQL. Estos datos se pueden cargar en Autonomous Database o consultar dinámicamente mediante tablas externas.
Para obtener más información sobre el uso de Data Catalog, consulte la documentación de Data Catalog.
Tema principal: Consulta de datos externos con Data Catalog
Ejemplo: escenario de datos particionados
En este escenario se muestra cómo crear tablas externas en Autonomous Database basadas en entidades lógicas de Data Catalog recopiladas a partir de datos particionados en Object Store.
El siguiente ejemplo se basa en el ejemplo: MovieStream Scenario y se ha adaptado para demostrar la integración con datos particionados. Data Catalog se utiliza para recopilar estos orígenes y, a continuación, proporcionar un contexto de negocio a los datos. Para obtener más información sobre este ejemplo, consulte Ejemplo: escenario MovieStream.
Para obtener más información sobre el uso de Data Catalog, consulte la documentación de Data Catalog.
Tema principal: Consulta de datos externos con Data Catalog