Gerenciar com Catálogo Mestre

4 Gerenciar com o Master Catalog

Este capítulo ajuda a usar e compreender o catálogo mestre, os catálogos padrão e externo, o esquema, as tabelas e os volumes.

Tópicos:

Catálogo Mestre

O Catálogo Mestre no AI Data Platform Workbench é a entidade de nível superior que permite gerenciar seus dados e metadados fornecendo uma view centralizada.

O Catálogo Mestre é um contêiner para catálogos padrão e externos. Você cria catálogos com seus ativos de dados no Oracle Autonomous AI Lakehouse, no OCI Object Storage e no Kafka. O Catálogo Mestre permite que você imponha permissões em seus objetos filhos.

Catálogos padrão e externo têm diferentes funções e casos de uso:

Catálogo padrão: Um catálogo padrão é um contêiner lógico para esquemas (bancos de dados), os usuários podem criar tabelas, views e volumes em um esquema. O catálogo padrão gerencia o ciclo de vida dos metadados de todos os objetos filhos.
Catálogo externo: Um catálogo externo é suportado por origens de dados externas, como Oracle Autonomous AI Lakehouse, Kafka etc. No caso de catálogo externo, os metadados são sincronizados com base na origem externa e os usuários podem consultar os dados em uma origem externa usando o nome de 3 partes, como: catalog_name.schema_name.table_name. No caso de catálogo externo, o ciclo de vida dos metadados é gerenciado pela origem externa e o Catálogo Mestre mantém uma cópia dos metadados.

Casos de Uso do Catálogo Mestre

Os catálogos mestres podem ser aproveitados para ajudar na preparação e análise de dados, no armazenamento de dados não estruturados e muito mais.

Consultar e Analisar Dados Usando a Sintaxe SQL

Crie tabelas gerenciadas ou externas em um catálogo padrão para consultar e analisar dados usando uma sintaxe familiar semelhante a SQL, facilitando a exploração e a compreensão dos dados armazenados na AI Data Platform.

Preparação de Dados

Aproveite o formato estruturado de dados armazenados em tabelas gerenciadas/externas para preparar dados para modelos de machine learning, facilitando a limpeza, a transformação e a criação de recursos de dados. Isso facilita o acesso e o processamento eficientes de dados para engenharia de recursos e treinamento de modelos

Viagem no Tempo

Os formatos de tabela abertos suportam a evolução do esquema. A estrutura dos dados pode mudar ao longo do tempo sem reescrever todo o conjunto de dados. Essas tabelas podem ter controle de versão e os usuários podem executar consultas de viagem no tempo, permitindo consultar versões históricas de dados, facilitando a análise retrospectiva e a recuperação de dados.

Suporte a transações ACID

Os formatos de tabela aberta suportam operações completas de Criação, Leitura, Atualização e Exclusão (CRUD), garantindo a consistência dos dados e ativando atualizações de dados. As tabelas podem ser usadas para armazenar e gerenciar dados transacionais, permitindo que os aplicativos rastreiem alterações nos dados.

Ler e Gravar Dados com Eficiência

As tabelas no AI Data Platform Workbench podem ser particionadas, permitindo acesso e processamento eficientes de dados, especialmente para grandes conjuntos de dados.

Armazenar e Processar Dados Não Estruturados

Crie volumes gerenciados ou externos para armazenar dados não estruturados para que eles possam ser processados usando o Apache Spark.

Tabelas e Volumes Externos entre Tenancies

Tabelas e volumes externos entre tenancies permitem acessar e consultar dados armazenados com segurança em tenancies diferentes sem a necessidade de pipelines ETL complexos ou movimentação manual de dados.

O AI Data Platform Workbench permite que os usuários criem tabelas e volumes externos entre tenancies, um recurso avançado projetado para eliminar silos de dados e agilizar a colaboração.

Os benefícios da locação cruzada são:

Duplicação de Dados Zero: você acessa dados ativos onde eles residem, economizando custos de armazenamento e garantindo a integridade de "uma única fonte confiável".
Governança Simplificada: Você gerencia permissões entre fronteiras usando políticas do IAM e controles de acesso do AI Data Platform Workbench.

Requisitos de Acesso da Tenancy Cruzada

A configuração do acesso entre tenancies para tabelas e volumes externos requer políticas específicas do IAM configuradas em uma tenancy do provedor e em uma tenancy do consumidor.

Na tenancy do provedor, você precisa criar um Grupo Dinâmico do IAM na console do OCI (Oracle Cloud Infrastructure) que inclua seu recurso específico do AI Data Platform Workbench como membro. Para obter mais informações, consulte Gerenciando Grupos Dinâmicos.

Depois de criar o Grupo Dinâmico do IAM, configure as políticas do IAM na tenancy do provedor:

Definir recursos no serviço IAM para tenancy do consumidor, grupo de usuários e grupos dinâmicos
Gravar a política admit do IAM para os recursos da tenancy do consumidor

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

Depois de configurar as políticas do IAM da tenancy do provedor, configure as políticas do IAM da tenancy do consumidor:

Defina o recurso no serviço IAM para a tenancy do provedor
Gravar a política do IAM do endorse para os recursos da tenancy do consumidor local

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

Depois que as políticas do IAM do provedor e da tenancy do consumidor forem configuradas, você poderá criar tabelas e volumes externos entre tenancies usando a gramática SQL. Para obter mais informações, consulte Gramática SQL.

Exemplo: Criar uma Tabela de Tenancy Cruzada com SQL

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

Limitação

O AI Data Platform Workbench não suporta a criação de tabelas externas entre tenancies ou volumes externos da interface de usuário.