Visão Geral do Serviço Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados que ajuda os consumidores de dados a descobrir dados e melhorar a governança no ecossistema Oracle.

Com o OCI Data Catalog, analistas de dados, cientistas de dados, engenheiros de dados e administradores de dados têm um único ambiente de autoatendimento para descobrir os dados disponíveis nas fontes de nuvem. O serviço Data Catalog ajuda os provedores de dados a criar um dicionário de dados composto por metadados técnicos e de negócios. Os consumidores de dados podem avaliar facilmente a adequação dos dados para projetos de análise e ciência de dados.

Principais Capacidades do Serviço Data Catalog

  • Colete metadados técnicos de uma ampla faixa de origens de dados suportadas que são acessíveis com o uso de IPs públicos ou privados.
  • Criar e gerenciar um vocabulário empresarial comum com um glossário de negócios. Criar uma hierarquia de categorias, subcategorias e termos com descrições de rich text detalhadas.
  • Aprimore os metadados técnicos coletados com anotações, vinculando entidades de dados e atributos a termos de negócios, propriedades definidas pelo usuário ou adicionando tags de formato livre.
  • Localizar as informações necessárias explorando os ativos de dados, procurando o catálogo de dados ou usando a barra de pesquisa rápida.
  • Automatizar e gerenciar jobs de coleta usando programações.
  • Integrar os recursos de classe empresarial de seu catálogo de dados com outros aplicativos usando APIs REST e SDKs.
Dica

Assista a uma introdução em vídeo ao serviço .

Conceitos do Serviço Data Catalog

A compreensão dos conceitos a seguir é essencial para o uso do Serviço Data Catalog.

Ativo de Dados
Representa uma origem de dados, como um banco de dados, um armazenamento de objetos, um armazenamento de arquivos ou de documentos, uma fila de mensagens ou um aplicativo.
Conexão
Inclui os detalhes necessários para estabelecer uma conexão com uma origem de dados. Uma conexão está sempre associada a um ativo de dados. Um ativo de dados pode ter mais de uma conexão.
Tipo de Conexão
Define o conjunto diferente de propriedades disponíveis em uma conexão para estabelecer conexão com um ativo de dados.
Coleta
Processo que extrai metadados técnicos das origens de dados conectadas para o repositório do catálogo de dados.
Objeto
Um objeto no serviço Data Catalog refere-se a qualquer objeto gerenciado no catálogo de dados, como ativos de dados, entidades de dados, atributos, glossários e termos.
Objeto de Dados
Um objeto de dados no serviço Data Catalog refere-se a ativos de dados e entidades de dados.
Entidade de Dados
Uma entidade de dados é um conjunto de dados, como uma tabela ou view de banco de dados, ou um único arquivo lógico. Normalmente, uma entidade de dados tem vários atributos que descrevem os dados.
Padrão de Nome de Arquivo
Padrão de nome de arquivo é uma expressão regular criada para agrupar vários arquivos do serviço Object Storage em uma entidade de dados lógica.
Entidades de Dados Lógicas
Entidade de dados lógica é um grupo de arquivos de Armazenamento de Objetos que são derivados da criação e designação de padrões de nome de arquivo a um ativo de dados.
Atributo
Um atributo descreve um item de dados com um nome e um tipo de dados. Por exemplo, uma coluna em uma tabela ou um campo em um arquivo.
Propriedade Personalizada
A propriedade personalizada é criada para enriquecer os objetos do catálogo de dados com contexto de negócios.
Glossário
Um glossário é um conjunto de conceitos de negócios da sua empresa. O glossário é constituído por categorias e termos de negócios.
Categoria
Uma categoria é criada em um glossário para agrupar termos de negócios relacionados de maneira lógica. Você pode criar uma categoria dentro de uma categoria para agrupar seus termos.
Termo
Termos são as definições reais de conceitos de negócios conforme acordado por diferentes partes interessadas da sua empresa. Use termos para organizar suas entidades de dados e atributos.
Tag do Serviço Data Catalog
Tags são labels de formato livre ou palavras-chave criados para identificação lógica de objetos de dados. As tags ajudam na classificação e descoberta de metadados. Você cria tags para ativos de dados, entidades de dados e atributos. Usando tags, você pode pesquisar todos os objetos de dados marcados com um nome de tag específico.
Job
Uma tarefa que executa o processo de coleta. Um job pode ser criado e executado imediatamente, programado para execução em uma frequência especificada ou criado e executado quando necessário.
Programação
Um job automatizado que pode ser executado por hora, diariamente, semanalmente ou mensalmente.

Maneiras de Acessar o Serviço Data Catalog

Acesse o serviço Data Catalog usando a Console, a API REST, SDKs ou a CLI.

Use qualquer uma das opções a seguir, com base na sua preferência e na adequação para a tarefa que você deseja desempenhar:

  • A Console é uma interface baseada em browser fácil de usar. Para obter uma lista de browsers suportados, consulte Navegadores Suportados.

    Para ir até a página de acesso, use o link Console na parte superior desta página. Será solicitado que você insira seu tenant na nuvem, seu nome de usuário e sua senha.

    .
  • As APIs REST fornecem a maior parte da funcionalidade, mas requerem experiência em programação. Referência de API e Pontos Finais fornecem detalhes do ponto final e links para os documentos de referência de API disponíveis.
  • O Oracle Cloud Infrastructure fornece SDKs que interagem com o serviço Data Catalog sem que você precise criar uma estrutura.
  • A interface de linha de comando (CLI) fornece acesso rápido e funcionalidade completa sem a necessidade de programação.

Identificadores de Recursos

O recurso do Catálogo de Dados tem um identificador exclusivo designado pela Oracle chamado OCID (Oracle Cloud ID).

Regiões e Domínios de Disponibilidade

O serviço Data Catalog está disponível em todas as regiões mencionadas em Regiões e domínios de disponibilidade. Regiões e domínios de disponibilidade indicam a organização física e lógica de seus recursos do serviço Data Catalog. Região é uma área geográfica localizada, e um domínio de Disponibilidade abrange um ou mais data centers localizados em uma região.

Limites e Cotas

Limites do Serviço

O serviço Data Catalog limita você a duas instâncias de catálogo de dados por região.

Cotas de Compartimento

Você pode limitar o número de recursos do catálogo de dados em um compartimento, criando um limite de cota. Por exemplo:

set data-catalog quota catalog-count to 1 in compartment <MyCompartment>

Serviços Integrados

O serviço Data Catalog é integrado a vários serviços e recursos.

IAM

O serviço Data Catalog integra-se ao IAM para autenticação e autorização, para todas as interfaces (Console, SDK, CLI e API REST).

Um administrador da sua empresa precisa configurar grupos, compartimentos e políticas que controlem quem pode acessar diferentes serviços e recursos e o tipo de acesso. Por exemplo, as políticas controlam quem pode criar usuários, criar e gerenciar a rede na nuvem, criar instâncias, criar buckets e fazer download de objetos.

Se você for um usuário regular (não um administrador) que precise usar os recursos do Oracle Cloud Infrastructure que sua empresa possui, entre em contato com o administrador para configurar um ID de usuário para você. O administrador pode confirmar os compartimentos que você pode usar.

Políticas comuns podem ser criadas para autorizar usuários do serviço Data Catalog. Você também pode criar políticas de Catálogo de Dados para controlar o acesso dos usuários ao serviço Datacenter.

Solicitações de Serviço

O serviço Data Catalog não está integrado à API de Solicitações de Serviço comum. Consulte Solicitações de Serviço do Data Catalog.

Eventos

O serviço Data Catalog é integrado ao serviço Events. Consulte Eventos do Serviço Data Catalog.

Search

O Oracle Cloud Infrastructure Search permite que você localize recursos em sua tenancy sem precisar navegar por diversos compartimentos e serviços. Você pode procurar o tipo de recurso datacatalog em suas consultas de pesquisa.

Explorador de Tenancy

O explorador de tenancy permite exibir todos os seus recursos de um compartimento específico, em todas as regiões. O explorador de tenancy é acionado pelo serviço Search e suporta o tipo de recurso datacatalog do serviço Data Catalog.

Monitoring

O Oracle Cloud Infrastructure Monitoring permite monitorar ativa e passivamente seus recursos de catálogo de dados usando as funcionalidades de métricas e alarmes.

As métricas do serviço Data Catalog ajudam a medir:

  • O número de objetos armazenados em sua instância do catálogo de dados.
  • O número de objetos coletados.
  • O tempo necessário para coletar os objetos.
  • Os erros encontrados durante a coleta.