Perfis de Dados e Recomendações Semânticas

Quando você cria um conjunto de dados, o Oracle Analytics executa uma descrição de perfil no nível de coluna a fim de produzir um conjunto de recomendações semânticas para reparar ou enriquecer seus dados. Ao criar pastas de trabalho, você também pode incluir enriquecimentos de conhecimento em suas visualizações adicionando-os pelo Painel de Dados.

Nota:

Os enriquecimentos de conhecimento em geral são ativados por padrão, mas os editores de pasta de trabalho podem ativá-los ou desativá-los para os conjuntos de dados que eles possuem ou para os quais eles têm privilégios de edição. O Oracle Analytics não fornece automaticamente recomendações de enriquecimento para conjuntos de dados gerados com base em um fluxo de dados. Nesse caso, o proprietário ou o administrador do conjunto de dados deve primeiro ativar a opção de enriquecimento de conhecimento para o conjunto de dados. Consulte Ativar Aprimoramentos de Conhecimento para Conjuntos de Dados.

Essas recomendações se baseiam na detecção automática, feita pelo sistema, de um tipo de semântica específico durante a etapa de perfilamento. Por exemplo, perfis de conjuntos de dados baseados em áreas de assunto locais são criados usando uma amostra simples de N Principais.

Há categorias de tipos semânticos como localizações geográficas identificadas por nomes de cidade, padrões reconhecíveis como em cartões de crédito, endereços de e-mail e números do seguro social, datas e padrões recorrentes. Você também pode criar seus próprios tipos semânticos personalizados.

Categorias de Tipo de Semântica

A criação de perfil é aplicada a vários tipos de semântica.

As categorias de tipo de semântica entram em um perfil para identificação:

  • Localizações geográficas como nomes de cidade.
  • Padrões como os encontrados nos números de cartões de crédito ou endereços de e-mail.
  • Padrões recorrentes como dados de expressões com hífen.

Recomendações de Tipo de Semântica

As recomendações de reparo, aprimoramento ou enriquecimento do conjunto de dados são determinadas pelo tipo de dados.

Exemplos de recomendações de tipo de semântica:

  • Enriquecimentos - Adicionar uma nova coluna aos seus dados que corresponda a um tipo detectado específico, como uma localização geográfica. Por exemplo, adicionar dados da população de uma cidade.
  • Concatenações de Colunas - Quando duas colunas são detectadas no conjunto de dados, uma contendo nomes e a outra contendo sobrenomes, o sistema recomenda uma concatenação dos nomes em uma única coluna. Por exemplo, uma coluna first_name_last_name.
  • Extrações Semânticas - Quando um tipo de semântica é composto de subtipos, por exemplo, um número us_phone que inclui um código de área, o sistema recomenda a extração do subtipo em sua própria coluna.
  • Extração de Parte - Quando um separador de padrão genérico é detectado nos dados, o sistema recomenda a extração de partes desse padrão. Por exemplo, se o sistema detectar uma hifenação repetitiva nos dados, ele recomendará a extração das partes em colunas separadas para tornar os dados potencialmente mais úteis para análise.
  • Extrações de Data - Quando datas são detectadas, o sistema recomenda a extração de partes da data que possam ampliar a análise dos dados. Por exemplo, você pode extrair o dia da semana da data da fatura ou compra.
  • Ofuscação/Mascaramento/Exclusão Total e Parcial - Quando campos confidenciais são detectados, como um número de cartão de crédito, o sistema recomenda um mascaramento total ou parcial da coluna, ou até mesmo a remoção.

Tipos de Semântica Baseados em Padrões Reconhecidos

Os tipos semânticos são identificados com base nos padrões encontrados nos dados.

São fornecidas recomendações para estes tipos de semântica:

  • Datas (em mais de 30 formatos)
  • Números de Seguro Social nos EUA (SSN)
  • Números de Cartão de Crédito
  • Atributos de Cartão de Crédito (CVV e Data de Validade)
  • Endereços de E-mail
  • Números de Telefone do North American Plan
  • Endereços dos EUA

Tipos de Semântica Baseados em Referências

O reconhecimento de tipos de semântica é determinado pelo conhecimento de referência carregado fornecido com o serviço.

As recomendações baseadas em referência são fornecidas para estes tipos de semântica:

  • Nomes de países
  • Códigos de países
  • Nomes de estados (Províncias)
  • Códigos de estados
  • Nomes de condados (Jurisdições)
  • Nomes de cidades (Nomes Localizados)
  • Códigos postais

Enriquecimentos Recomendados

Os enriquecimentos recomendados são baseados nos tipos de semântica.

Os enriquecimentos são determinados com base na hierarquia de localizações geográficas:

  • País
  • Província (Estado)
  • Jurisdição (Condado)
  • Longitude
  • Latitude
  • População
  • Elevação (em Metros)
  • Fuso horário
  • Códigos ISO de países
  • FIPS (Federal Information Processing Series)
  • Nome do país
  • Capital
  • Continente
  • ID do GeoNames
  • Idiomas falados
  • Código telefônico do país
  • Formato de código postal
  • Padrão de código postal
  • Código telefônico do país
  • Nome da moeda
  • Abreviação da moeda
  • Domínio geográfico de nível superior (GeoLTD)
  • KM Quadrado

Limites Obrigatórios

O processo de análise de perfil usa limites específicos para tomar decisões sobre determinados tipos de semântica.

Como regra geral, 85% dos valores de dados na coluna devem atender aos critérios de um único tipo de semântica para que o sistema faça a determinação de classificação. Como resultado, uma coluna que pode conter 70% de nomes e 30% de “outros" não atende aos requisitos de limite e, portanto, não são feitas recomendações.

Recomendações de Conhecimento Personalizado

Use recomendações de conhecimento personalizado para aumentar o conhecimento do sistema Oracle Analytics. O conhecimento personalizado permite que o criador de perfil semântico do Oracle Analytics identifique mais tipos semânticos específicos de negócios e faça recomendações de enriquecimento mais relevantes e controladas. Por exemplo, você pode adicionar uma referência de conhecimento personalizado que classifica medicamentos prescritos nas categorias de medicamentos da USP Analgésicos ou Opioides.

Ícone Tutorial Tutorial

Peça ao seu administrador para fazer upload de arquivos de conhecimento personalizado para o Oracle Analytics. Quando você enriquece os conjuntos de dados, o Oracle Analytics apresenta recomendações de enriquecimento com base nesses dados semânticos. Ao criar pastas de trabalho, você também pode incluir enriquecimentos de conhecimento em suas visualizações adicionando-os pelo Painel de Dados.

Criando Seus Próprios Arquivos de Conhecimento Personalizado

Ao criar arquivos semânticos, siga estas diretrizes:

  • Crie um arquivo de dados no formato CSV ou Microsoft Excel (XLSX). O tamanho máximo do arquivo cujo upload você pode fazer é 250 MB.
  • Preencha a primeira coluna com a chave, que o Oracle Analytics usa para criar o perfil dos dados. Por exemplo, a chave pode ser uma data com a granularidade do dia para permitir que os dados sejam analisados por ano fiscal.
  • Preencha as outras colunas com os valores de enriquecimento.

Peça ao seu administrador para fazer upload de seu arquivo de conhecimento personalizado no Oracle Analytics.

Exemplo - Integrar Cronogramas Comerciais aos Seus Dados

Este exemplo ilustra como você pode adicionar cronogramas de negócios aos dados de vendas e ativar a análise de vendas por ano fiscal se o conjunto de dados original não contiver dados fiscais.

O exemplo de visualização mostra vendas por trimestre nos anos de 2019, 2020, 2021, 2022 e 2023, em que cada ano é representado em uma cor diferente. Você não tem dados fiscais em seus dados de vendas de origem; portanto, implante conhecimento personalizado adicional para acrescentar dados fiscais ao seu conjunto de dados.

Em primeiro lugar, você prepara dados fiscais em um arquivo Fiscal Calendar.xlsx. Seu arquivo contém data (dd-mm-aaaa), ano fiscal, mês fiscal e semana fiscal. Por exemplo, seu arquivo de origem pode ter 23-01-2025 na coluna de data, 2025 na coluna de ano fiscal e os atributos para concluir as colunas restantes.

Peça ao administrador para fazer upload do Fiscal Calendar.xlsx para a área de conhecimento personalizada na Console.

Em seguida, crie um conjunto de dados contendo Vendas e ORDER_DATE e, no editor do conjunto de dados, selecione Enriquecer ORDER_DATE COM Ano Fiscal e Enriquecer ORDER_DATE com Mês Fiscal nas recomendações de enriquecimento. O Oracle Analytics adiciona esses dois enriquecimentos ao conjunto de dados.

Por fim, você cria uma pasta de trabalho e adiciona Ano Fiscal e Trimestre Fiscal (em ORDER_DATE) e Vendas a uma visualização. Observação: Você pode adicionar Ano Fiscal e Trimestre Fiscal diretamente sem precisar adicionar a coluna ORDER_DATE original.