Consultar Dados Externos com o Serviço Data Catalog
O Oracle Cloud Infrastructure Data Catalog é o serviço de gerenciamento de metadados do Oracle Cloud que ajuda você a descobrir dados e oferecer suporte à governança de dados. Ele fornece um inventário de ativos, um glossário de negócios e um metastore comum para data lakes.
O Autonomous Database pode aproveitar esses metadados para simplificar consideravelmente o gerenciamento do acesso ao armazenamento de objetos do seu data lake. Em vez de definir manualmente tabelas externas para acessar seu data lake, use as tabelas externas que são definidas e gerenciadas automaticamente. Essas tabelas serão encontradas em esquemas protegidos pelo Autonomous Database que são mantidos atualizados com as alterações no serviço Data Catalog.
Para obter mais informações sobre o serviço Data Catalog, consulte a documentação do serviço Data Catalog.
- Sobre a Consulta com o Serviço Data Catalog
Sincronizando com metadados do serviço Data Catalog, o Autonomous Database cria automaticamente tabelas externas para cada entidade lógica coletada pelo serviço Data Catalog. Essas tabelas externas são definidas em esquemas de banco de dados totalmente gerenciados pelo processo de sincronização de metadados. Os usuários podem consultar dados imediatamente sem precisar derivar manualmente o esquema (colunas e tipos de dados) para origens de dados externas e criar tabelas manualmente. - Conceitos Relacionados à Consulta com o Serviço Data Catalog
A compreensão dos conceitos a seguir é necessária para consultas com o Serviço Data Catalog. - Mapeamento de Sincronização
O processo de sincronização cria e atualiza esquemas e tabelas externas do Autonomous Database com base em ativos de dados, pastas, entidades lógicas, atributos e substituições personalizadas relevantes do serviço Data Catalog. - Workflow Típico com o Serviço Data Catalog
Há um workflow típico de ações executadas por usuários que desejam fazer consultas com o Serviço Data Catalog. - Exemplo: MovieStream Cenário
Neste cenário, o Moviestream está capturando dados em uma zona de destino no armazenamento de objetos. Muitos desses dados, mas não necessariamente todos, são usados para alimentar um Autonomous Database. Antes de alimentar o Autonomous Database, os dados são transformados, limpos e subsequentemente armazenados na área "gold". - Exemplo: Cenário de Dados Particionados
Esse cenário ilustra como criar tabelas externas no Autonomous Database baseadas em entidades lógicas do serviço Data Catalog coletadas de dados particionados no Armazenamento de Objetos.
Tópico principal: Consultar Dados Externos com o Autonomous Database
Sobre a Consulta com o Serviço Data Catalog
Sincronizando com metadados do serviço Data Catalog, o Autonomous Database cria automaticamente tabelas externas para cada entidade lógica coletada pelo serviço Data Catalog. Essas tabelas externas são definidas em esquemas de banco de dados totalmente gerenciados pelo processo de sincronização de metadados. Os usuários podem consultar dados imediatamente sem precisar derivar manualmente o esquema (colunas e tipos de dados) para origens de dados externas e criar tabelas manualmente.
A sincronização é dinâmica, mantendo o Autonomous Database atualizado em relação às alterações nos dados subjacentes, reduzindo o custo de administração, uma vez que mantém automaticamente centenas ou milhares de tabelas. Também permite que várias instâncias do Autonomous Database compartilhem o mesmo serviço Data Catalog, reduzindo ainda mais os custos de gerenciamento e fornecendo um conjunto comum de definições de negócios.
As pastas/buckets do serviço Data Catalog são contêineres que são sincronizados com esquemas do Autonomous Database. As entidades lógicas nessas pastas/buckets são mapeadas para tabelas externas do Autonomous Database. Esses esquemas e tabelas externas são gerados e mantidos automaticamente por meio do processo de sincronização:
- Pastas/Buckets são mapeados para esquemas de banco de dados que se destinam apenas a fins organizacionais.
- A organização deve ser consistente com o data lake e minimizar a confusão ao acessar dados por diferentes caminhos.
- O serviço Data Catalog é a origem da verdade para as tabelas contidas nos esquemas. As alterações feitas no serviço Data Catalog atualizam as tabelas do esquema durante uma sincronização subsequente.
Para usar esse recurso, um Administrador do Database Data Catalog inicia uma conexão com uma instância do serviço Data Catalog, seleciona quais ativos de dados e entidades lógicas sincronizar e executa a sincronização. O processo de sincronização cria esquemas e tabelas externas com base nos ativos de dados coletados e nas entidades lógicas do serviço Data Catalog selecionados. Assim que as tabelas externas forem criadas, os Analistas de Dados podem começar a consultar seus dados sem precisar derivar manualmente o esquema para origens de dados externas e criar tabelas externas.
O Pacote
DBMS_DCAT
está disponível para executar as tarefas necessárias para consultar ativos de dados do armazenamento de objetos do serviço Data Catalog. Consulte DBMS_DCAT Package.
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog
Conceitos Relacionados à Consulta com o Serviço Data Catalog
A compreensão dos conceitos a seguir é necessária para consultas com o serviço Data Catalog.
- Data Catalog
-
O serviço Data Catalog coleta ativos de dados que apontam para as origens de dados do armazenamento de objetos que você deseja consultar com o Autonomous Database. No Data Catalog, você pode especificar como os dados são organizados durante a coleta, suportando diferentes padrões de organização de arquivos. Como parte do processo de coleta do serviço Data Catalog, você pode selecionar os buckets e os arquivos que deseja gerenciar no ativo. Para obter mais informações, consulte Visão Geral do Serviço Data Catalog.
- Armazenamentos de Objetos
-
Os Armazenamentos de Objetos têm buckets que contêm uma variedade de objetos. Alguns tipos comuns de objetos encontrados nesses buckets incluem: arquivos CSV, parquet, avro, json e ORC. Em geral, os buckets têm uma estrutura ou um padrão de design para os objetos que eles contêm. Existem diversas maneiras de estruturar dados e muitas maneiras diferentes de interpretar esses padrões.
Por exemplo, um padrão de design típico usa pastas de nível superior que representam tabelas. Os arquivos de uma determinada pasta compartilham o mesmo esquema e contêm dados para essa tabela. As subpastas geralmente são usadas para representar partições de tabelas (por exemplo, uma subpasta para cada dia). O serviço Data Catalog se refere a cada pasta de nível superior como entidade lógica, e essa entidade lógica é mapeada para uma tabela externa do Autonomous Database.
- Conexão
-
Uma conexão do Autonomous Database com uma instância do serviço Data Catalog. Para cada instância do Autonomous Database, pode haver conexões com várias instâncias do serviço Data Catalog. A credencial do Autonomous Database deve ter direitos para acessar os ativos do serviço Data Catalog que foram coletados do armazenamento de objetos.
- Harvest
-
Um processo do serviço Data Catalog que verifica o armazenamento de objetos e gera as entidades lógicas de seus conjuntos de dados.
- Ativo de Dados
-
Um ativo de dados no serviço Data Catalog representa uma origem de dados, que inclui bancos de dados, Oracle Object Storage, Kafka e muito mais. O Autonomous Database aproveita os ativos do Oracle Object Storage para sincronização de metadados.
- Entidade de Dados
-
Entidade de dados no Catálogo de Dados é uma coleção de dados como uma tabela ou view de banco de dados, ou um único arquivo e que normalmente tem muitos atributos dela.
- Entidade Lógica
-
Em Data Lakes, vários arquivos normalmente formam uma única entidade lógica. Por exemplo, você pode ter arquivos de sequência de cliques diários, e esses arquivos compartilham o mesmo esquema e tipo de arquivo.
Entidade lógica do serviço Data Catalog é um grupo de arquivos de Armazenamento de Objetos que são derivados durante a coleta, aplicando padrões de nome de arquivo que foram criados e designados a um ativo de dados.
- Objeto de Dados
-
Um objeto de dados no serviço Data Catalog refere-se a ativos de dados e entidades de dados.
- Padrão de Nome de Arquivo
-
Em um data lake, os dados podem ser organizados de diferentes maneiras. Normalmente, as pastas captam arquivos do mesmo esquema e tipo. Registre no serviço Data Catalog como seus dados são organizados. Os padrões de nome de arquivo são usados para identificar o modo de organização dos seus dados. No serviço Data Catalog, você pode definir padrões de nome de arquivo usando expressões regulares. Quando o serviço Data Catalog coleta um ativo de dados com um padrão de nome de arquivo designado, as entidades lógicas são criadas com base no padrão de nome de arquivo. Definindo e designando esses padrões a ativos de dados, vários arquivos podem ser agrupados como entidades lógicas com base no padrão de nome de arquivo.
- Sincronizar (Sincronizar)
-
O Autonomous Database executa sincronizações com o serviço Data Catalog para manter automaticamente seu banco de dados atualizado em relação a alterações nos dados subjacentes. A sincronização pode ser executada manualmente ou programada.
O processo de sincronização cria esquemas e tabelas externas com base nos ativos de dados e nas entidades lógicas do serviço Data Catalog. Esses esquemas são protegidos, o que significa que seus metadados são gerenciados pelo serviço Data Catalog. Se quiser alterar os metadados, faça as alterações no serviço Data Catalog. Os esquemas do Autonomous Database refletirão as alterações depois que a próxima sincronização for executada. Para obter mais detalhes, consulte Mapeamento de Sincronização.
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog
Mapeamento de Sincronização
O processo de sincronização cria e atualiza esquemas e tabelas externas do Autonomous Database com base em ativos de dados, pastas, entidades lógicas, atributos e substituições personalizadas relevantes do serviço Data Catalog.
Serviço Data Catalog | do Autonomous Database | Descrição do Mapeamento |
---|---|---|
Ativo de dados e pasta (bucket de armazenamento de objetos) |
Nome do Esquema |
Valores default: Por padrão, o nome de esquema gerado no Autonomous Database tem o seguinte formato:
Personalizações: Os padrõesdata-asset-name e folder-name podem ser personalizados definindo propriedades personalizadas, nomes de negócios e nomes de exibição para substituir esses nomes padrão.
Exemplos:
|
Entidade lógica | Tabela externa |
As entidades lógicas são mapeadas para tabelas externas. Se a entidade lógica tiver um atributo particionado, ela será mapeada para uma tabela externa particionada. O nome da tabela externa é derivado do Nome para Exibição ou do Nome Comercial da entidade lógica correspondente. Se Por exemplo, se |
Atributos da entidade lógica | Colunas da tabela externa |
Nomes de coluna Os nomes de coluna da tabela externa são derivados dos nomes para exibição do atributo ou dos nomes comerciais da entidade lógica correspondente. Para entidades lógicas derivadas de arquivos Parquet, Avro e ORC, o nome da coluna é sempre o nome para exibição do atributo, já que representa o nome do campo derivado dos arquivos de origem. Para atributos correspondentes a uma entidade lógica derivada de arquivos CSV, os seguintes campos de atributo são usados em ordem de precedência para gerar o nome da coluna:
Tipo de coluna: A propriedade personalizada Para atributos correspondentes a uma entidade lógica derivada de arquivos Avro com os tipos de dados Comprimento da coluna: A propriedade personalizada Precisão da coluna: A propriedade personalizada Para atributos correspondentes a uma entidade lógica derivada de arquivos Avro com os tipos de dados Escala de coluna: A propriedade personalizada |
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog
Workflow Típico com o Serviço Data Catalog
Há um workflow típico de ações executadas pelos usuários que desejam fazer consultas com o serviço Data Catalog.
O Administrador de Consultas do Database Data Catalog ou o Administrador do Database concede acesso READ às tabelas externas geradas para que os Analistas de Dados e outros usuários de banco de dados possam procurar e consultar as tabelas externas.
A tabela a seguir descreve com detalhes cada ação. Para obter uma descrição dos diferentes tipos de usuário incluídos nessa tabela, consulte Usuários e Atribuições do Serviço Data Catalog.
O Pacote
DBMS_DCAT
está disponível para executar as tarefas necessárias para consultar ativos de dados do armazenamento de objetos do serviço Data Catalog. Consulte DBMS_DCAT Package.
Ação | Quem é o usuário | Descrição |
---|---|---|
Criar políticas |
Administrador do Database Data Catalog |
O controlador de recursos do Autonomous Database ou a credencial de usuário do Autonomous Database deve ter as permissões adequadas para gerenciar o serviço Data Catalog e ler o armazenamento de objetos. Mais informações: Credenciais Obrigatórias e Políticas do Serviço IAM. |
Criar credenciais |
Administrador do Database Data Catalog |
Certifique-se de que as credenciais do banco de dados estejam em vigor para acessar o serviço Data Catalog e consultar o armazenamento de objetos. O usuário chama Mais informações: Procedimento DBMS_CLOUD CREATE_CREDENTIAL, Usar o Controlador de Recursos com DBMS_CLOUD. |
Criar conexões com o serviço Data Catalog |
Administrador do Database Data Catalog |
Para iniciar uma conexão entre uma instância do Autonomous Database e uma instância do serviço Data Catalog, o usuário chama A conexão com a instância do serviço Data Catalog deve usar um objeto de credencial de banco de dados com privilégios suficientes do Oracle Cloud Infrastructure (OCI). Por exemplo, é possível usar o Token de Serviço do Principal de Recursos para a instância do Autonomous Database ou um usuário do OCI com privilégios suficientes. Depois que a conexão tiver sido estabelecida, a instância do serviço Data Catalog será atualizada com o namespace
DBMS_DCAT e as propriedades personalizadas (se ainda não existirem). O usuário pode executar uma consulta para ver a nova conexão, incluindo todas as conexões atuais:
Mais informações: SET_DATA_CATALOG_CONN Procedimento, UNSET_DATA_CATALOG_CONN Procedimento. |
Criar uma sincronização seletiva |
Administrador do Database Data Catalog |
Crie um job de sincronização selecionando os objetos do serviço Data Catalog a serem sincronizados. O usuário pode:
Mais informações: Consulte CREATE_SYNC_JOB Procedimento, DROP_SYNC_JOB Procedimento, Mapeamento de Sincronização |
Sincronizar com o serviço Data Catalog |
Administrador do Database Data Catalog |
O usuário inicia uma operação de sincronização. A sincronização é iniciada manualmente por meio da chamada do procedimento A operação de sincronização cria, modifica e elimina tabelas externas e esquemas de acordo com o conteúdo do serviço Data Catalog e as seleções de sincronização. A configuração manual é aplicada usando as Propriedades Personalizadas do serviço Data Catalog. Mais informações: Consulte RUN_SYNC Procedure, CREATE_SYNC_JOB Procedure, Synchronization Mapping |
Monitorar sincronização e exibir registros |
Administrador do Database Data Catalog |
O usuário pode exibir o status de sincronização consultando a view USER_LOAD_OPERATIONS . Depois que o processo de sincronização for concluído, o usuário poderá exibir um log dos resultados da sincronização, incluindo detalhes sobre os mapeamentos de entidades lógicas para tabelas externas.
Mais informações: Monitorando e Solucionando Problemas de Cargas |
conceder privilégios |
Administrador de Consultas do Database Data Catalog, Administrador de Banco de Dados |
O Administrador de Consultas do Catálogo de Dados do banco de dados ou o Administrador do banco de dados deve conceder o privilégio READ nas tabelas externas geradas aos usuários analistas de dados. Isso permite que os analistas de dados consultem as tabelas externas geradas. |
Procurar e consultar tabelas externas |
Analista de Dados |
Os analistas de dados podem consultar as tabelas externas por meio de qualquer ferramenta ou aplicativo que tenha suporte para o Oracle SQL. Os Analistas de Dados podem revisar esquemas e tabelas sincronizados, nos esquemas DCAT$*, e consultar as tabelas usando o Oracle SQL. Mais informações: Mapeamento de Sincronização |
Encerrar conexões com o serviço Data Catalog |
Administrador do Database Data Catalog |
Para remover uma associação existente do serviço Data Catalog, o usuário chama o procedimento UNSET_DATA_CATALOG_CONN. Essa ação só é executada quando você não planeja mais usar o serviço Data Catalog e as tabelas externas derivadas do catálogo. Essa ação exclui metadados do serviço Data Catalog e elimina tabelas externas sincronizadas da instância do Autonomous Database. As propriedades personalizadas no Data Catalog e nas políticas do OCI não são afetadas. Mais informações: UNSET_DATA_CATALOG_CONN Procedimento |
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog
Exemplo: Cenário MovieStream
Nesse cenário, o Moviestream está capturando dados em uma zona de destino no armazenamento de objetos. Muitos desses dados, mas não necessariamente todos, são usados para alimentar um Autonomous Database. Antes de alimentar o Autonomous Database, os dados são transformados, limpos e subsequentemente armazenados na área "gold".
O serviço Data Catalog é usado para coletar essas origens e, em seguida, fornecer um contexto de negócios aos dados. Os metadados do serviço Data Catalog são compartilhados com o Autonomous Database, permitindo que os usuários do Autonomous Database consultem essas origens de dados usando o Oracle SQL. Esses dados podem ser carregados no Autonomous Database ou consultados dinamicamente usando tabelas externas.
Para obter mais informações sobre como usar o serviço Data Catalog, consulte a Documentação do Serviço Data Catalog.
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog
Exemplo: Cenário de Dados Particionados
Esse cenário ilustra como criar tabelas externas no Autonomous Database baseadas em entidades lógicas do serviço Data Catalog coletadas de dados particionados no Armazenamento de Objetos.
O exemplo a seguir é baseado no Exemplo: MovieStream Cenário e foi adaptado para demonstrar a integração com dados particionados. O serviço Data Catalog é usado para coletar essas origens e, em seguida, fornecer um contexto de negócios aos dados. Para obter mais detalhes sobre esse exemplo, consulte Exemplo: MovieStream Cenário.
Para obter mais informações sobre como usar o serviço Data Catalog, consulte a Documentação do Serviço Data Catalog.
Tópico principal: Consultar Dados Externos com o Serviço Data Catalog