Perfis de Dados e Recomendações Semânticas

Quando cria um conjunto de dados, o Oracle Analytics efetuou a criação do perfil ao nível das colunas para produzir um conjunto de recomendações semânticas que visam reparar ou enriquecer os seus dados. Quando cria livros, também pode incluir melhoramentos de conteúdos nas suas visualizações ao acrescentá-los a partir do Painel Dados.

Nota:

Geralmente, os enriquecimentos de conteúdos estão ativados por omissão, mas os editores de livros podem ativá-los ou desativá-los para os conjuntos de dados de que são proprietários ou para os quais têm privilégios de edição. O Oracle Analytics não fornece automaticamente recomendações de enriquecimento para conjuntos de dados gerados a partir de um fluxo de dados. Neste caso, o proprietário ou administrador do conjunto de dados deve ativar primeiro a opção de enriquecimentos de conteúdos para o conjunto de dados. Consulte Ativar Enriquecimentos de Conteúdos para Conjuntos de Dados.

Estas recomendações baseiam-se na deteção automática efetuada pelo sistema de um tipo semântico específico durante o passo do perfil. Por exemplo, são criados perfis dos conjuntos de dados com base nas áreas de atividade locais utilizando uma amostra simples de N principal.

Existem categorias de tipos semânticos, como localizações geográficas identificadas por nomes de localidades, padrões reconhecíveis como em cartões de crédito, endereços de email e números de segurança social, datas e padrões repetitivos. Também pode criar os seus próprios tipos semânticos customizados.

Categorias de Tipos Semânticos

A criação de perfis é aplicada a vários tipos semânticos.

São criados perfis para as categorias de tipos semânticos de modo a identificar:

  • Localizações geográficas, como nomes de localidades.
  • Padrões, como os que se encontram nos números de cartões de crédito ou endereços de email.
  • Padrões repetitivos como dados de frases hifenizadas.

Recomendações de Tipos Semânticos

As recomendações para reparar, melhorar ou enriquecer o conjunto de dados são determinadas pelo tipo de dados.

Exemplos de recomendações de tipos semânticos:

  • Enriquecimentos - Acrescentar uma nova coluna aos seus dados que corresponde a um tipo detetado específico, como uma localização geográfica. Por exemplo, acrescentar dados de população para uma localidade.
  • Concatenações de Colunas - Quando são detetadas duas colunas no conjunto de dados, uma com nomes próprios e outra com apelidos, o sistema recomenda concatenar os nomes numa única coluna. Por exemplo, uma coluna nome_próprio_apelido.
  • Extrações Semânticas - Quando um tipo semântico é composto por subtipos como, por exemplo, um número telefone_eua que inclui o indicativo, o sistema recomenda extrair o subtipo para uma coluna própria.
  • Extração de Partes - Quando é detetado um separador de padrão genérico nos dados, o sistema recomenda extrair partes desse padrão. Por exemplo, se o sistema detetar uma hifenização repetitiva nos dados, recomenda extrair as partes para colunas separadas, com vista a tornar os dados mais úteis para análise.
  • Extrações de Datas - Quando são detetadas datas, o sistema recomenda extrair as partes da data que poderão aumentar a análise dos dados. Por exemplo, pode extrair o dia da semana de uma data de fatura ou compra.
  • Ofuscação/Máscara/Apagamento Total e Parcial - Quando são detetados campos sensíveis, como um número de cartão de crédito, o sistema recomenda uma máscara total ou parcial da coluna, ou até mesmo a sua remoção.

Tipos Semânticos Baseados em Padrões Reconhecidos

Os tipos semânticos são identificados com base nos padrões encontrados nos dados.

São fornecidas recomendações para estes tipos semânticos:

  • Datas (em mais de 30 formatos)
  • Números de Identificação da Segurança Social (NISS) - EUA
  • Números de Cartão de Crédito
  • Atributos do Cartão de Crédito (CVV e Data e Expiração)
  • Endereços de Email
  • Números de Telefone de Planos Norte Americanos
  • Endereços - EUA

Tipos Semânticos Baseados em Referências

O reconhecimento dos tipos semânticos é determinado pelos conhecimentos de referência carregados fornecidos com o serviço.

São fornecidas recomendações baseadas em referências para estes tipos semânticos:

  • Nomes de países
  • Códigos de países
  • Nomes de distritos (Províncias)
  • Códigos de distritos
  • Nomes de concelhos (Jurisdições)
  • Nomes de localidades (Nomes Localizados)
  • Códigos postais

Enriquecimentos Recomendados

Os enriquecimentos recomendados baseiam-se nos tipos semânticos.

Os enriquecimentos são determinados com base na hierarquia da localização geográfica:

  • País
  • Província (Estado)
  • Jurisdição (Concelho)
  • Longitude
  • Latitude
  • População
  • Elevação (em Metros)
  • Fuso horário
  • Códigos de países ISO
  • FIPS (Federal Information Processing Series)
  • Nome do país
  • Capital
  • Continente
  • ID em GeoNames
  • Línguas faladas
  • Indicativo telefónico do país
  • Formato do código postal
  • Padrão do código postal
  • Indicativo telefónico do país
  • Nome da moeda
  • Abreviatura da moeda
  • Domínio de nível superior geográfico (GeoLTD)
  • KM quadrados

Limiares Obrigatórios

O processo de criação do perfil utiliza limiares específicos para decidir sobre tipos semânticos específicos.

Regra geral, 85% dos valores dos dados na coluna têm de corresponder aos critérios de um único tipo semântico para que o sistema possa determinar a respetiva classificação. Como resultado, uma coluna que contenha 70% de nomes próprios e 30% de “outros” não cumpre os requisitos de limiar e, por conseguinte, não é efetuada nenhuma recomendação.

Recomendações de Conteúdos Customizados

Utilize as recomendações de conteúdo customizado para aumentar os conteúdos de sistema do Oracle Analytics. Os conteúdos customizados permitem que o profiler semântico do Oracle Analytics identifique mais tipos de semântica específicos de negócio e faça recomendações mais relevantes e enriquecidas do ponto de vista regulamentar. Pode, por exemplo, acrescentar uma referência de conteúdos customizados que classifique a medicação com receita médica na categoria de Analgésicos ou Opioides da U.S. Pharmacopeia (USP).

ícone Guia Prático Guia Prático

Peça ao administrador que carregue os ficheiros de conteúdos customizados para o Oracle Analytics. Quando o utilizador enriquece os conjuntos de dados, o Oracle Analytics apresenta recomendações de enriquecimento baseadas nestes dados semânticos. Quando cria livros, também pode incluir melhoramentos de conteúdos nas suas visualizações ao acrescentá-los a partir do Painel Dados.

Criar os Seus Ficheiros de Conteúdos Customizados

Ao criar ficheiros semânticos, siga as seguintes diretrizes:

  • Crie um ficheiro de dados no formato CSV ou Microsoft Excel (XLSX). O tamanho máximo do ficheiro que pode carregar é 250 MB.
  • Preencha a primeira coluna com a chave que o Oracle Analytics utiliza para criar um perfil dos dados. Por exemplo, a chave poderá ser uma data com a granularidade do dia para permitir que os dados sejam analisados por exercício.
  • Preencha as outras colunas com os valores de enriquecimento.

Peça ao administrador que carregue o seu ficheiro de conteúdos customizados para o Oracle Analytics.

Exemplo - Integração de Períodos de Tempo de Atividade nos Seus Dados

Este exemplo ilustra como pode acrescentar períodos de tempo de atividade a dados de vendas e ativar a análise de vendas por exercício se o conjunto de dados original não contiver dados fiscais.

O exemplo de visualização mostra vendas por trimestre nos anos 2019, 2020, 2021, 2022 e 2023, onde cada ano é representado por uma cor diferente. Não tem dados fiscais nos seus dados de vendas de origem, como tal, pode implementar conhecimento customizado adicional para acrescentar dados fiscais ao seu conjunto de dados.

Em primeiro lugar, prepare os dados fiscais num ficheiro intitulado Fiscal Calendar.xlsx. O ficheiro contém data (dd-mm-aaaa), ano fiscal, mês fiscal e semana fiscal. Por exemplo, o ficheiro de origem pode ter 01-23-2025 na coluna de data, 2025 na coluna do exercício e os atributos para concluir as colunas restantes.

Peça ao administrador para carregar o ficheiro Fiscal Calendar.xlsx para a área de conteúdos customizados na Consola.

Em seguida, crie um conjunto de dados que contenha Vendas e ORDER_DATE, e no editor do conjunto de dados selecione Enrich ORDER_DATE WITH Fiscal Year e Enrich ORDER_DATE WITH Fiscal Month nas recomendações de enriquecimento. O Oracle Analytics acrescenta estes dois enriquecimentos ao conjunto de dados.

Por último, crie um livro e acrescente Exercício, e Trimestre do Exercício (em ORDER_DATE) e Vendas a uma visualização. Nota: Pode acrescentar o Ano Fiscal e o Trimestre do Exercício diretamente sem ter de acrescentar a coluna ORDER_DATE original.