Funções Analíticas do Banco de Dados

As funções analíticas do banco de dados permitem que você execute análise avançada e de mineração de dados; por exemplo, detecção de anomalias, clusterização e amostragem de dados, além de análise de afinidade. Funções Analíticas estão disponíveis quando você se conecta a um banco de dados Oracle ou Oracle Autonomous Data Warehouse.

Ícone Tutorial LiveLabs Sprint

Para exibir a etapa Análise de Banco de Dados no editor de fluxo de dados, estabeleça conexão com um banco de dados Oracle ou com o Oracle Autonomous Data Warehouse.

Tipos de Função Descrição

Detecção Dinâmica de Anomalia

Detecta anomalias nos seus dados de entrada sem um modelo predefinido. Por exemplo, talvez você queira destacar transações financeiras incomuns.

Quando você implantar essa função com conjuntos de dados de grande porte, configure as colunas da partição para maximizar o desempenho.

Clusterização Dinâmica

Clusteriza seus dados de entrada sem um modelo predefinido. Por exemplo, talvez você queira caracterizar e descobrir segmentos do cliente para fins de marketing.

Quando você implantar essa função com conjuntos de dados de grande porte, configure as colunas da partição para maximizar o desempenho.

Conjunto de Itens Frequentes

Descobre relacionamentos em seus dados identificando conjuntos de itens que muitas vezes aparecem juntos. Essa técnica de mineração de dados é conhecida também como aprendizado de regra de associação, análise de afinidade ou, no setor varejista, como análise de cestas de compras. Se você usar conjunto de itens frequentes como ferramenta de análise de cestas de compras, poderá descobrir que clientes que compram shampoo também compram condicionador.

Essa operação consume muitos recursos e seu desempenho depende de diversos fatores, como volume do conjunto de dados de entrada, cardinalidade do id da transação e cardinalidade da coluna do valor do item. Para evitar uma possível degradação do desempenho no banco de dados, tente com um valor maior de porcentagem mínima de suporte (o padrão é 0,25) e reduza-o gradualmente para acomodar mais conjuntos de itens nos resultados.

Amostragem de Dados

Seleciona um percentual de amostra de dados aleatória de uma tabela. Você simplesmente especifica o percentual de dados que deseja amostrar. Por exemplo, talvez você queira amostrar aleatoriamente 10% dos seus dados.

Tokenização de Texto

Analisa dados textuais dividindo-os em palavras distintas e contando as ocorrências de cada palavra. Quando você executa seu fluxo de dados, o Oracle Analytics cria uma tabela no banco de dados chamada DR$IndexName$I, que contém o texto do token e os detalhes relacionados à contagem de tokens. Use a tabela DR$IndexName$I para criar um conjunto de dados.

  • Em Saídas, use a opção Criar ao lado de cada campo para selecionar as colunas a serem indexadas.

  • Em Parâmetros, depois Coluna de Texto, clique em Selecionar uma coluna para selecionar o campo que você gostaria de dividir em palavras distintas. Use as opções Coluna de Referência<number> para incluir uma ou mais colunas no conjunto de dados de saída. Utilize a opção Usar Analisador Léxico Especial de Idioma para selecionar idiomas específicos, como chinês, dinamarquês, holandês, inglês, finlandês, alemão, norueguês, japonês, coreano e sueco para analisadores lexicais especiais. Consulte Documentação do Oracle Database para obter mais detalhes sobre os idiomas suportados.

A conexão do banco de dados que você usa para seu fluxo de dados exige privilégios especiais de banco de dados. Verifique com seu administrador se:
  • Sua conta do banco de dados tem grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Você usa uma conexão do Oracle Analytics com o mesmo nome de usuário do esquema no qual a tabela de origem existe. Essa é a melhor prática para evitar problemas de privilégio de acesso quando o fluxo de dados é executado.
  • A coluna da tabela do banco de dados que você está analisando não tem qualquer índice CONTEXT existente. Se houver um índice CONTEXT existente na tabela de banco de dados que você está analisando, remova esse índice antes de executar o fluxo de dados de tokenização de texto.

Série Temporal

Série Temporal é uma técnica de mineração de dados que prevê o valor fixado com base em um histórico conhecido de valores fixados. A entrada para a análise de série temporal é uma sequência de valores fixados. Ela fornece estimativas do valor fixado para cada período de uma janela de tempo que pode incluir até 30 períodos além dos dados históricos.

O modelo também calcula várias estatísticas que medem a qualidade do ajuste aos dados históricos. Essas estatísticas estão disponíveis como conjunto de dados de saída adicional por meio de uma definição de parâmetro.

Observação: O algoritmo de Série Temporal só está disponível a partir da versão 18c em diante do banco de dados Oracle.

Transformando Colunas em Linhas de Dados

Transpõe dados que estão armazenados em colunas para o formato de linha. Por exemplo, talvez você queira transpor várias colunas que mostram um valor de métrica de receita de cada ano para uma única coluna de receita com várias linhas de valor para a dimensão de ano. Você simplesmente seleciona as colunas de métrica a serem transpostas e especifica um nome para a nova coluna, obtendo um novo conjunto de dados com menos colunas e mais linhas.

Observação: Para usar funções analíticas, certifique-se de que o administrador habilitou funções analíticas (consulte Console, Definições Avançadas do Sistema, Desempenho e Compatibilidade, Ativar Nó de Análise de Banco de Dados em Fluxos de Dados).