Perfis de Dados e Recomendações Semânticas

Quando você cria um conjunto de dados, o Oracle Analytics executa uma descrição de perfil no nível de coluna a fim de produzir um conjunto de recomendações semânticas para reparar ou enriquecer seus dados. Ao criar pastas de trabalho, você também pode incluir enriquecimentos de conhecimento em suas visualizações adicionando-os pelo Painel de Dados.

Essas recomendações se baseiam na detecção automática, feita pelo sistema, de um tipo de semântica específico durante a etapa de perfilamento. Por exemplo, perfis de conjuntos de dados baseados em áreas de assunto locais são criados usando uma amostra simples de N Principais.

Há categorias de tipos semânticos como localizações geográficas identificadas por nomes de cidade, padrões reconhecíveis como em cartões de crédito, endereços de e-mail e números do seguro social, datas e padrões recorrentes. Você também pode criar seus próprios tipos semânticos personalizados.

Categorias de Tipo de Semântica

A criação de perfil é aplicada a vários tipos de semântica.

As categorias de tipo de semântica entram em um perfil para identificação:

  • Localizações geográficas como nomes de cidade.
  • Padrões como os encontrados nos números de cartões de crédito ou endereços de e-mail.
  • Padrões recorrentes como dados de expressões com hífen.

Recomendações de Tipo de Semântica

As recomendações de reparo, aprimoramento ou enriquecimento do conjunto de dados são determinadas pelo tipo de dados.

Exemplos de recomendações de tipo de semântica:

  • Enriquecimentos - Adicionar uma nova coluna aos seus dados que corresponda a um tipo detectado específico, como uma localização geográfica. Por exemplo, adicionar dados da população de uma cidade.
  • Concatenações de Colunas - Quando duas colunas são detectadas no conjunto de dados, uma contendo nomes e a outra contendo sobrenomes, o sistema recomenda uma concatenação dos nomes em uma única coluna. Por exemplo, uma coluna first_name_last_name.
  • Extrações Semânticas - Quando um tipo de semântica é composto de subtipos, por exemplo, um número us_phone que inclui um código de área, o sistema recomenda a extração do subtipo em sua própria coluna.
  • Extração de Parte - Quando um separador de padrão genérico é detectado nos dados, o sistema recomenda a extração de partes desse padrão. Por exemplo, se o sistema detectar uma hifenação repetitiva nos dados, ele recomendará a extração das partes em colunas separadas para tornar os dados potencialmente mais úteis para análise.
  • Extrações de Data - Quando datas são detectadas, o sistema recomenda a extração de partes da data que possam ampliar a análise dos dados. Por exemplo, você pode extrair o dia da semana da data da fatura ou compra.
  • Ofuscação/Mascaramento/Exclusão Total e Parcial - Quando campos confidenciais são detectados, como um número de cartão de crédito, o sistema recomenda um mascaramento total ou parcial da coluna, ou até mesmo a remoção.

Tipos de Semântica Baseados em Padrões Reconhecidos

Os tipos semânticos são identificados com base nos padrões encontrados nos dados.

São fornecidas recomendações para estes tipos de semântica:

  • Datas (em mais de 30 formatos)
  • Números de Seguro Social nos EUA (SSN)
  • Números de Cartão de Crédito
  • Atributos de Cartão de Crédito (CVV e Data de Validade)
  • Endereços de E-mail
  • Números de Telefone do North American Plan
  • Endereços dos EUA

Tipos de Semântica Baseados em Referências

O reconhecimento de tipos de semântica é determinado pelo conhecimento de referência carregado fornecido com o serviço.

As recomendações baseadas em referência são fornecidas para estes tipos de semântica:

  • Nomes de países
  • Códigos de países
  • Nomes de estados (Províncias)
  • Códigos de estados
  • Nomes de condados (Jurisdições)
  • Nomes de cidades (Nomes Localizados)
  • Códigos postais

Enriquecimentos Recomendados

Os enriquecimentos recomendados são baseados nos tipos de semântica.

Os enriquecimentos são determinados com base na hierarquia de localizações geográficas:

  • País
  • Província (Estado)
  • Jurisdição (Condado)
  • Longitude
  • Latitude
  • População
  • Elevação (em Metros)
  • Fuso horário
  • Códigos ISO de países
  • FIPS (Federal Information Processing Series)
  • Nome do país
  • Capital
  • Continente
  • ID do GeoNames
  • Idiomas falados
  • Código telefônico do país
  • Formato de código postal
  • Padrão de código postal
  • Código telefônico do país
  • Nome da moeda
  • Abreviação da moeda
  • Domínio geográfico de nível superior (GeoLTD)
  • KM Quadrado

Limites Obrigatórios

O processo de análise de perfil usa limites específicos para tomar decisões sobre determinados tipos de semântica.

Como regra geral, 85% dos valores de dados na coluna devem atender aos critérios de um único tipo de semântica para que o sistema faça a determinação de classificação. Como resultado, uma coluna que pode conter 70% de nomes e 30% de “outros" não atende aos requisitos de limite e, portanto, não são feitas recomendações.

Recomendações de Conhecimento Personalizado

Use recomendações de conhecimento personalizado para aumentar o conhecimento do sistema Oracle Analytics. O conhecimento personalizado permite que o criador de perfil semântico do Oracle Analytics identifique mais tipos semânticos específicos de negócios e faça recomendações de enriquecimento mais relevantes e controladas. Por exemplo, você pode adicionar uma referência de conhecimento personalizado que classifica medicamentos prescritos nas categorias de medicamentos da USP Analgésicos ou Opioides.

Ícone Tutorial Tutorial