Funções da Análise da Base de Dados

As funções de análise da base de dados permitem efetuar análises avançadas e análises de data mining, por exemplo, detetar anomalias, colocar dados em cluster, efetuar a amostragem de dados e análises de afinidade. As Funções de Análise estão disponíveis ao ligar a uma Base de Dados Oracle ou ao Oracle Autonomous Data Warehouse.

ícone Guia Prático Sprint de LiveLabs

Para apresentar o passo Análise da Base de Dados no editor de fluxos de dados, deve ligar a uma base de dados Oracle ou ao Oracle Autonomous Data Warehouse.

Tipos de Função Descrição

Deteção de Anomalias Dinâmica

Detete anomalias nos seus dados de entrada sem um modelo predefinido. Por exemplo, poderá pretender destacar transações financeiras invulgares.

Quando implementar esta função com conjuntos de dados de grandes dimensões, configure as colunas de partição para maximizar o desempenho.

Clustering Dinâmico

Coloque os seus dados de entrada em cluster sem um modelo predefinido. Por exemplo, poderá pretender caracterizar e descobrir segmentos de clientes para fins de marketing.

Quando implementar esta função com conjuntos de dados de grandes dimensões, configure as colunas de partição para maximizar o desempenho.

Conjunto de Itens Frequentes

Descubra relações nos seus dados ao identificar conjuntos de itens que aparecem juntos frequentemente. Esta técnica de data mining também é conhecida como aprendizagem de regras de associação, análise de afinidade ou, na indústria de retalho, como análise do cabaz de compras. Se utilizar um conjunto de itens frequentes como ferramenta de análise do cabaz de compras, poderá descobrir que os clientes que compram champô também compram condicionador de cabelo.

Esta operação consome muitos recursos e o respetivo desempenho depende de vários fatores, como o volume do conjunto de dados de entrada, o número de elementos da ID da transação e o número de elementos da coluna de valor do Item. Para evitar uma potencial degradação do desempenho na base de dados, experimente com um valor superior de percentagem de suporte mínimo (o valor por omissão é 0,25) e reduza-o gradualmente para acomodar mais conjuntos de itens na sua saída de dados.

Amostragem de Dados

Seleciona uma percentagem de dados de exemplo aleatórios da tabela. Basta especificar a percentagem de dados pretendidos para a amostragem. Por exemplo, poderá pretender efetuar uma amostragem aleatória de dez por cento dos seus dados.

Geração de Tokens de Texto

Analise os dados textuais dividindo-os em palavras distintas e contando as ocorrências de cada palavra. Quando executa o seu fluxo de dados, o Oracle Analytics cria uma tabela na base de dados chamada DR$NomeÍndice$I, que contém o texto do token e os detalhes relacionados com a contagem de tokens. Utilize a tabela DR$NomeÍndice$I para criar um conjunto de dados.

  • Em Saídas de Dados, utilize a opção Criar junto a cada campo para selecionar as colunas a indexar.

  • Em Parâmetros, depois em Coluna de Texto, clique em Selecionar uma coluna para selecionar o campo que pretende dividir em palavras separadas. Utilize as opções da Coluna de Referência <número> para incluir uma ou mais colunas no conjunto de dados de saída. Utilize a opção Utilizar Lexer de Língua Especial para selecionar línguas específicas, como chinês, dinamarquês, neerlandês, inglês, finlandês, alemão, norueguês, japonês, coreano e sueco para lexers especiais. Consulte Documentação da base de dados Oracle para mais detalhes sobre as línguas suportadas.

A ligação à base de dados que utiliza para o seu fluxo de dados requer privilégios especiais de base de dados. Confirme com o seu administrador que:
  • A sua conta da base de dados tem grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Utiliza uma ligação ao Oracle Analytics com o mesmo nome de utilizador que o schema onde a tabela de origem existe. Este é o procedimento recomendado para evitar problemas de privilégios de acesso quando o fluxo de dados é executado.
  • A coluna da tabela da base de dados que está a analisar não tem nenhum índice CONTEXT. Se existir um índice CONTEXT na tabela da base de dados que está a analisar, retire esse índice antes de executar o fluxo de dados de geração de tokens de texto.

Série de Tempo

A Série de Tempo é uma técnica de data mining que prevê o valor-alvo com base num histórico conhecido de valores-alvo. A entrada de dados para a análise de série de tempo é uma sequência de valores-alvo. Fornece estimativas do valor-alvo para cada período de uma janela de tempo que pode incluir até 30 períodos para além dos dados históricos.

O modelo também calcula várias estatísticas que medem a adequação do ajuste aos dados históricos. Estas estatísticas estão disponíveis como um conjunto de dados de saída adicional através de uma definição de parâmetros.

Nota: O algoritmo da Série de Tempo só está disponível a partir da versão 18c da base de dados Oracle.

Transformação de Colunas de Dados em Linhas

Transforme dados armazenados em colunas para o formato de linhas. Por exemplo, poderá pretender transpor várias colunas que mostram um valor de métrica de receitas de cada ano para uma única coluna de receitas com múltiplas linhas de valores para a dimensão de ano. Basta selecionar as colunas da métrica a transpor e especificar o nome da nova coluna. Obtém um novo conjunto de dados com menos colunas e mais linhas.

Nota: Para utilizar funções de análise, certifique-se de que o administrador ativou as funções de análise (consulte Consola, Definições Avançadas do Sistema, Desempenho e Compatibilidade, Ativar Nó de Análise da Base de Dados em Fluxos de Dados).