Gestionar con catálogo maestro

4 Gestión con el catálogo maestro

Este capítulo le ayuda a utilizar y comprender el catálogo maestro, los catálogos estándar y externos, el esquema, las tablas y los volúmenes.

Temas:

Catálogo maestro

El catálogo maestro en AI Data Platform Workbench es la entidad de nivel superior que le permite gestionar sus datos y metadatos proporcionando una vista centralizada.

El catálogo maestro es un contenedor para catálogos estándar y externos. Puede crear catálogos con sus activos de datos en Oracle Autonomous AI Lakehouse, OCI Object Storage y Kafka. El catálogo maestro le permite aplicar permisos en sus objetos secundarios.

Los catálogos estándar y externos tienen diferentes funciones y casos de uso:

Catálogo estándar: un catálogo estándar es un contenedor lógico para los esquemas (bases de datos), los usuarios pueden crear tablas, vistas y volúmenes en un esquema. El catálogo estándar gestiona el ciclo de vida de los metadatos de todos los objetos secundarios.
Catálogo externo: un catálogo externo está respaldado por orígenes de datos externos como Oracle Autonomous AI Lakehouse, Kafka, etc. En el caso del catálogo externo, los metadatos se sincronizan desde el origen externo y los usuarios pueden consultar los datos en un origen externo mediante el nombre de 3 partes, como: catalog_name.schema_name.table_name. En el caso del catálogo externo, el ciclo de vida de los metadatos lo gestiona el origen externo y el catálogo maestro mantiene una copia de los metadatos.

Casos de uso para catálogo maestro

Los catálogos maestros se pueden aprovechar para ayudar con la preparación y el análisis de datos, el almacenamiento de datos no estructurados y mucho más.

Consulta y Análisis de Datos mediante la Sintaxis SQL

Cree tablas gestionadas o externas en un catálogo estándar para consultar y analizar datos mediante una sintaxis similar a SQL familiar, lo que facilita la exploración y comprensión de los datos almacenados en AI Data Platform.

Preparación de datos

Aproveche el formato estructurado de los datos almacenados en tablas gestionadas/externas para preparar los datos para los modelos de Machine Learning, facilitando la limpieza, la transformación y la creación de funciones de los datos. Esto facilita un acceso y procesamiento de datos eficientes para la ingeniería de funciones y el entrenamiento de modelos.

Viaje en el tiempo

Los formatos de tabla abiertos soportan la evolución del esquema. La estructura de los datos puede cambiar con el tiempo sin volver a escribir todo el conjunto de datos. Estas tablas se pueden versionar y los usuarios pueden ejecutar consultas de viaje en el tiempo, lo que le permite consultar versiones históricas de datos, lo que facilita el análisis retrospectivo y la recuperación de datos.

Compatibilidad con transacciones ACID

Los formatos de tabla abierta admiten operaciones completas de creación, lectura, actualización y supresión (CRUD), lo que garantiza la consistencia de los datos y permite las actualizaciones de datos. Las tablas se pueden utilizar para almacenar y gestionar datos transaccionales, lo que permite a las aplicaciones realizar un seguimiento de los cambios en los datos.

Lectura y escritura eficientes de datos

Las tablas de AI Data Platform Workbench se pueden particionar, lo que permite un acceso y procesamiento de datos eficientes, especialmente para grandes conjuntos de datos.

Almacenar y procesar datos no estructurados

Cree volúmenes gestionados o externos para almacenar datos no estructurados de modo que se puedan procesar mediante Apache Spark.

Tablas y volúmenes externos entre arrendamientos

Las tablas y los volúmenes externos entre arrendamientos le permiten acceder y consultar de forma segura los datos almacenados en distintos arrendamientos sin necesidad de pipelines ETL complejos ni de mover datos manualmente.

AI Data Platform Workbench permite a los usuarios crear tablas y volúmenes externos entre arrendamientos, una potente capacidad diseñada para eliminar los silos de datos y simplificar la colaboración.

Las ventajas del arrendamiento cruzado son:

Cero duplicación de datos: accede a los datos activos donde residen, ahorra en costos de almacenamiento y garantiza la integridad de una "fuente única de datos".
Gobernanza simplificada: los permisos se gestionan más allá de los límites mediante políticas de IAM y controles de acceso al área de trabajo de AI Data Platform.

Requisitos de Acceso entre Arrendamientos

La configuración del acceso entre arrendamientos para volúmenes y tablas externos requiere políticas de IAM específicas configuradas en un arrendamiento de proveedor y un arrendamiento de consumidor.

En el arrendamiento del proveedor, debe crear un grupo dinámico de IAM en la consola de Oracle Cloud Infrastructure (OCI) que incluya su recurso específico AI Data Platform Workbench como miembro. Para obtener más información, consulte Gestión de grupos dinámicos.

Después de crear el grupo dinámico de IAM, debe configurar políticas de IAM en el arrendamiento del proveedor:

Defina recursos en IAM para el arrendamiento del consumidor, el grupo de usuarios y los grupos dinámicos
Escribir la política de IAM de admisión para los recursos de arrendamiento de consumidor

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

Después de configurar las políticas de IAM de arrendamiento del proveedor, debe configurar las políticas de IAM de arrendamiento del consumidor:

Definir el recurso en IAM para el arrendamiento del proveedor
Escribir la política de IAM de endorse para los recursos de arrendamiento de consumidor locales

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

Una vez configuradas las políticas de IAM de arrendamiento tanto de proveedor como de consumidor, puede crear volúmenes y tablas externas entre arrendamientos mediante la gramática SQL. Para obtener más información, consulte Gramática SQL.

Ejemplo: creación de una tabla entre arrendamientos con SQL

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

Limitación

AI Data Platform Workbench no soporta la creación de tablas externas entre arrendamientos o volúmenes externos desde la interfaz de usuario.