Os modelos preditivos do Oracle Analytics usam vários algoritmos incorporados do Oracle Machine Learning para explorar seus conjuntos de dados, prever um valor fixado ou identificar classes de registros. Use o editor de fluxo de dados para criar, treinar e aplicar modelos preditivos aos seus dados.
Um modelo preditivo do Oracle Analytics aplica um algoritmo específico a um conjunto de dados para prever valores, prever classes ou identificar grupos nos dados.
Você também pode usar modelos de aprendizado de máquina do sistema Oracle para prever dados.
O Oracle Analytics inclui algoritmos para ajudá-lo a treinar modelos preditivos para vários propósitos. Exemplos de algoritmos são árvores de classificação e regressão (CART), regressão logística e k-médias.
Você usa o editor de fluxo de dados para treinar primeiro um modelo em um conjunto de dados de treinamento. Após o treinamento do modelo preditivo, você o aplica aos conjuntos de dados que deseja prever.
Você pode disponibilizar um modelo treinado para outros usuários que podem aplicá-lo aos dados para prever valores. Em alguns casos, certos usuários treinam modelos e outros aplicam os modelos.
Nota:
Se você não tiver certeza do que procurar em seus dados, pode começar usando o recurso Explain, que usa o aprendizado de máquina para identificar tendências e padrões. Em seguida, você pode usar o editor de fluxo de dados para criar e treinar modelos preditivos para detalhar as tendências e padrões encontrados pelo recurso Explain.Use o modelo finalizado para pontuar dados desconhecidos ou não rotulados para gerar um conjunto de dados em um fluxo de dados ou adicionar uma visualização de previsão a uma pasta de trabalho.
Exemplo
Suponha que você queira criar e treinar um modelo de várias classificações para prever quais pacientes têm um alto risco de desenvolver doenças cardíacas.
O Oracle Analytics fornece algoritmos para qualquer uma das suas necessidades de modelagem de aprendizado de máquina: previsão numérica, multiclassificador, classificador binário e clusterização.
A funcionalidade de aprendizado de máquina da Oracle é para analistas de dados avançados que têm uma ideia do que estão procurando nos dados, estão familiarizados com a prática da análise preditiva e compreendem as diferenças entre os algoritmos.
Nota:
Se você estiver usando dados provenientes do Oracle Autonomous Data Warehouse, poderá usar o recurso AutoML para treinar de maneira rápida e fácil um modelo preditivo para você, sem exigir habilidades de aprendizado de máquina. Consulte Treinar um Modelo Preditivo Usando AutoML no Autonomous Data Warehouse.Normalmente, os usuários desejam criar vários modelos de previsão, compará-los e escolher o que mais provavelmente fornecerá resultados que satisfaçam seus critérios e requisitos. Esses critérios podem variar. Por exemplo, às vezes os usuários escolhem modelos com melhor precisão geral, às vezes escolhem modelos com menos erros do tipo I (falso positivo) e do tipo II (falso negativo), e às vezes os usuários escolhem modelos que retornam resultados mais rapidamente e com um nível aceitável de precisão, mesmo que os resultados não sejam ideais.
O Oracle Analytics contém vários algoritmos de aprendizado de máquina para cada tipo de previsão ou de classificação. Com esses algoritmos, os usuários podem criar mais de um modelo ou usar diferentes parâmetros ajustados ou usar diferentes conjuntos de dados de treinamento de entrada e escolher o melhor modelo. O usuário pode escolher o melhor modelo comparando e ponderando modelos com seus próprios critérios. Para determinar o melhor modelo, os usuários podem aplicar o modelo e visualizar os resultados dos cálculos para determinar a precisão, ou podem abrir e explorar os conjuntos de dados relacionados que o Oracle Analytics usou o modelo para produzir.
Consulte esta tabela para aprender sobre os algoritmos fornecidos:
Nome | Tipo | Categoria | Função | Descrição |
---|---|---|---|---|
CART |
Classificação Regressão |
Classificador Binário Multiclassificador Numérico |
- | Utiliza árvores de decisões para prever valores discretos e contínuos.
Use com conjuntos de dados grandes. |
Regressão Linear da Rede Elástica | Regressão | Numérico | ElasticNet | Modelo de regressão avançado. Fornece informações adicionais (regularização), realiza seleção de variáveis e combinações lineares. Penalidades dos métodos de regressão Lasso e Ridge.
Use com um grande número de atributos para evitar colinearidade (onde vários atributos estão perfeitamente correlacionados) e ajuste excessivo. |
Hierárquico | Clusterização | Clusterização | AgglomerativeClustering | Cria uma hierarquia de clusterização usando métricas ascendentes (cada observação é seu próprio cluster e depois é mesclada) ou descendentes (todas as observações começam como um cluster) e de distância.
Use quando o conjunto de dados não for grande e o número de clusters não for conhecido previamente. |
K-Médias | Clusterização | Clusterização | k-médias | Partilha repetidamente os registros em clusters k, onde cada observação pertence ao cluster com a média mais próxima.
Use para clusterizar colunas de métricas e com uma expectativa definida do número de clusters necessários. Funciona bem com grandes conjuntos de dados. O resultado é diferente a cada execução. |
Regressão Linear | Regressão | Numérico | Mínimos Quadrados Ordinários
Ridge Lasso |
Abordagem linear para um relacionamento de modelagem entre a variável de destino e outros atributos no conjunto de dados.
Use para prever valores numéricos quando os atributos não estiverem perfeitamente correlacionados. |
Regressão Logística | Regressão | Classificador Binário | LogisticRegressionCV | Use para prever o valor de uma variável categoricamente dependente. A variável dependente é uma variável binária que contém dados codificados em 1 ou 0. |
Naive Bayes | Classificação |
Classificador Binário Multiclassificador |
GaussianNB | Classificação probabilística baseada no teorema de Bayes que não assume dependência entre características.
Use quando houver um número alto de dimensões de entrada. |
Rede Neural | Classificação |
Classificador Binário Multiclassificador |
MLPClassifier | Algoritmo de classificação iterativa que aprende comparando seu resultado de classificação com o valor real e o retorna à rede para modificar o algoritmo para outras iterações.
Use para análise de texto. |
Previsão Aleatória | Classificação |
Classificador Binário Multiclassificador Numérico |
- | Um método de aprendizado de conjunto que constrói várias árvores de decisões e gera o valor que representa coletivamente todas as árvores de decisões.
Use para prever variáveis numéricas e categóricas. |
SVM | Classificação |
Classificador Binário Multiclassificador |
LinearSVC, SVC | Classifica os registros mapeando-os no espaço e construindo hiperplanos que podem ser usados para classificação. Novos registros (dados de pontuação) são mapeados no espaço e devem pertencer a uma categoria, que se baseia no lado do hiperplano onde eles estão. |
Ao usar dados do Oracle Autonomous Data Warehouse, você pode utilizar o recurso AutoML para recomendar e treinar um modelo preditivo. A etapa AutoML analisa seus dados, calcula o melhor algoritmo a ser usado e registra um modelo de previsão no Oracle Analytics para que você possa fazer previsões sobre seus dados.
OML_Developer
e não seja um superusuário 'administrador'. Caso contrário, o fluxo de dados falhará quando você tentar salvá-lo ou executá-lo.Analistas de dados de nível avançado cria e treinam modelos preditivos a fim de que possam usá-los para implantar algoritmos do Oracle Machine Learning e minerar conjuntos de dados, prever um valor de destino ou identificar classes de registros. Use o editor de fluxo de dados para criar e treinar modelos preditivos, e aplicá-los aos seus dados.
Chegar a um modelo preciso é um processo iterativo e um analista de dados avançado pode experimentar diferentes modelos, comparar seus resultados e ajustar parâmetros com base em tentativa e erro. Um analista de dados pode usar o modelo preditivo finalizado e preciso para prever tendências em outros conjuntos de dados ou adicionar o modelo às pastas de trabalho.
Nota:
Se você estiver usando dados provenientes do Oracle Autonomous Data Warehouse, poderá usar o recurso AutoML para treinar de maneira rápida e fácil um modelo preditivo para você, sem exigir habilidades de aprendizado de máquina. Consulte Treinar um Modelo Preditivo Usando AutoML no Autonomous Data Warehouse.O Oracle Analytics fornece algoritmos para previsão numérica, várias classificações, classificação binária e cluster.
O Oracle Analytics permite que você treine modelos de aprendizado de máquina usando etapas em fluxos de dados. Quando você tiver treinado um modelo de aprendizado de máquina, aplique-o aos seus dados usando a etapa Aplicar Modelo.
Nome da Etapa | Descrição |
---|---|
AutoML (exige o Oracle Autonomous Data Warehouse) | Use o recurso AutoML do Oracle Autonomous Data Warehouse para recomendar e treinar um modelo preditivo para você. A etapa AutoML analisa seus dados, calcula o melhor algoritmo a ser usado e registra um modelo de previsão no Oracle Analytics. |
Treinar Classificador Binário |
Treinar um modelo de aprendizado de máquina para classificar seus dados em uma de duas categorias predefinidas. |
Treinar Clusterização | Treinar um modelo de aprendizado de máquina para separar grupos com traços semelhantes e designá-los a clusters. |
Treinar Multiclassificador | Treinar um modelo de aprendizado de máquina para classificar seus dados em três ou mais categorias predefinidas. |
Treinar Previsão Numérica | Treinar um modelo de aprendizado de máquina para prever um valor numérico com base em valores de dados conhecidos. |
Depois de criar o modelo preditivo e executar o fluxo de dados, você pode revisar informações sobre o modelo para determinar sua precisão. Use estas informações para ajustar de forma iterativa as definições do modelo para melhorar a precisão e prever melhores resultados.
Informações detalhadas de um modelo preditivo ajudam você a entender o modelo e determinar se ele é adequado para prever seus dados. Os detalhes do modelo incluem classe, algoritmo, colunas de entrada e colunas de saída
Exiba informações que ajudem você a entender a qualidade de um modelo preditivo. Por exemplo, você pode rever as métricas de precisão, exatidão, rechamada, valor F1 e taxa de falsos positivos do modelo.
Quando você executa o fluxo de dados para criar o modelo de treinamento do modelo preditivo do Oracle Analytics, ele cria uma série de conjuntos de dados relacionados. Você pode abrir e criar pastas de trabalho nesses conjuntos de dados para aprender sobre a precisão do modelo.
Dependendo do algoritmo escolhido para seu modelo, os conjuntos de dados relacionados contêm detalhes sobre o modelo, como: regras de previsão, métricas de precisão, matriz de confusão e fatores determinantes de previsão. Você pode usar essas informações para ajustar o modelo para obter melhores resultados e usar conjuntos de dados relacionados para comparar modelos e decidir qual modelo é mais preciso.
Por exemplo, você pode abrir um conjunto de dados Fatores para descobrir quais colunas têm uma forte influência positiva ou negativa no modelo. Ao examinar essas colunas, você descobre que algumas colunas não são tratadas como variáveis de modelo porque não são entradas realistas ou são granulares demais para a previsão. Você usa o editor de fluxo de dados para abrir o modelo e, com base nas informações descobertas, remove as colunas irrelevantes ou muito granulares e gera novamente o modelo. Você observa a guia Qualidade e Resultados e verifica se a precisão do modelo foi aprimorada. Você continua esse processo até estar satisfeito com a precisão do modelo e pronto para pontuar um novo conjunto de dados.
Algoritmos diferentes geram conjuntos de dados relacionados semelhantes. Parâmetros individuais e nomes de colunas podem mudar no conjunto de dados, dependendo do tipo de algoritmo, mas a funcionalidade do conjunto de dados permanece a mesma. Por exemplo, os nomes das colunas em um conjunto de dados estatísticos podem ser alterados de Regressão Linear para Regressão Logística, mas o conjunto de dados estatísticos contém métricas de precisão do modelo.
Conjuntos de Dados Relacionados para Modelos AutoML
Quando você treina um modelo preditivo usando AutoML, o Oracle Analytics cria conjuntos de dados adicionais que contêm informações úteis sobre o modelo. O número de conjuntos de dados criados depende do algoritmo do modelo. Por exemplo, para modelos Naive Bayes, o Oracle Analytics cria um conjunto de dados que fornece informações sobre probabilidades condicionais. Para um modelo de árvore de decisão, o conjunto de dados fornece informações sobre estatísticas de árvore de decisão. Ao inspecionar um modelo gerado por AutoML usando o algoritmo de modelo linear generalizado (GLM), você vê entradas prefixadas com GLM* para conjuntos de dados específicos do modelo que contêm informações de metadados sobre o modelo.
.png
Conjuntos de Dados Relacionados
Nota:
O Oracle Analytics anexa o nome de saída do fluxo de dados ao tipo de conjunto de dados relacionado. Por exemplo, para um modelo CART, se a saída do fluxo de dados for denominada cart_model2, o conjunto de dados será denominado cart_model2_CART.CART
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado à CART (Árvore de Classificação e Regressão), que contém colunas que representam as condições e os critérios das condições na árvore de decisão, uma previsão para cada grupo e a confiança na previsão. Use a visualização do diagrama de árvore para visualizar essa árvore de decisão.
O conjunto de dados CART é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para Previsão Numérica |
Classificação Binária | CART |
Várias Classificações | CART |
Relatório de Classificação
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado ao Relatório de Classificação. Por exemplo, se a coluna de destino puder ter os dois valores distintos Sim ou Não, esse conjunto de dados mostrará métricas de precisão como F1, Precisão, Rechamada e Suporte (o número de linhas no conjunto de dados de treinamento com esse valor) para cada valor distinto da coluna de destino.
O conjunto de dados Classificação é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Naive Bayes Rede Neural Máquina de Vetor de Suporte |
Várias Classificações |
Naive Bayes Rede Neural Máquina de Vetor de Suporte |
Matriz de Confusão
O Oracle Analytics cria uma tabela dinâmica para o conjunto de dados relacionado à Matriz de Confusão, que também é chamada de matriz de erros. Cada linha representa uma instância de uma classe prevista e cada coluna representa uma instância em uma classe real. Esta tabela relata o número de falsos positivos, falsos negativos, verdadeiros positivos e verdadeiros negativos, que são usados para calcular métricas de precisão, rechamada e precisão de F1.
O conjunto de dados Matriz de Confusão é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Regressão Logística CART (Árvore de Decisão) Naive Bayes Rede Neural Previsão Aleatória Máquina de Vetor de Suporte |
Várias Classificações |
CART (Árvore de Decisão) Naive Bayes Rede Neural Previsão Aleatória Máquina de Vetor de Suporte |
Fatores
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado a Fatores, que contém informações sobre as colunas que determinam os valores da coluna de destino. As regressões lineares são usadas para identificar essas colunas. Cada coluna recebe valores de coeficiente e correlação. O valor do coeficiente descreve o peso-idade da coluna usado para determinar o valor da coluna de destino. O valor de correlação indica a direção do relacionamento entre a coluna de destino e a coluna dependente. Por exemplo, se o valor da coluna de destino aumenta ou diminui com base na coluna dependente.
O conjunto de dados Fatores é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Numérico |
Regressão Linear Regressão Linear da Rede Elástica |
Classificação Binária |
Regressão Logística Máquina de Vetor de Suporte |
Várias Classificações | Máquina de Vetor de Suporte |
Hitmap
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado a Hitmap, que contém informações sobre os nós folha da árvore de decisão. Cada linha da tabela representa um nó folha e contém informações que descrevem o que esse nó folha representa, como tamanho do segmento, confiança e número esperado de linhas. Por exemplo, número esperado de previsões corretas = Tamanho do Segmento * Confiança.
O conjunto de dados Hitmap é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para Previsão Numérica |
Residuais
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado a Resíduos, que contém informações sobre a qualidade das previsões residuais. Um residual é a diferença entre o valor medido e o valor previsto de um modelo de regressão. Este conjunto de dados contém um valor agregado da soma da diferença absoluta entre os valores reais e previstos para todas as colunas no conjunto de dados.
O conjunto de dados Resíduos é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Numérico |
Regressão Linear Regressão Linear da Rede Elástica CART para Previsão Numérica |
Classificação Binária | CART (Árvore de Decisão) |
Várias Classificações | CART (Árvore de Decisão) |
Estatística
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado a Estatísticas. As métricas desse conjunto de dados dependem do algoritmo usado para gerá-lo. Observe esta lista de métricas com base no algoritmo:
Este conjunto de dados é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico |
Regressão Linear Regressão Linear da Rede Elástica CART para Previsão Numérica |
Classificação Binária |
Regressão Logística CART (Árvore de Decisão) Naive Bayes Rede Neural Previsão Aleatória Máquina de Vetor de Suporte |
Várias Classificações |
Naive Bayes Rede Neural Previsão Aleatória Máquina de Vetor de Suporte |
Resumo
O Oracle Analytics cria uma tabela para o conjunto de dados relacionado a Resumo, que contém informações como nome do Destino e nome do Modelo.
O conjunto de dados Resumo é criado quando você seleciona essas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Naive Bayes Rede Neural Máquina de Vetor de Suporte |
Várias Classificações |
Naive Bayes Rede Neural Máquina de Vetor de Suporte |
São gerados conjuntos de dados relacionados quando você treina um modelo preditivo.
Ao criar um cenário em uma pasta de trabalho, você aplica um modelo preditivo ao conjunto de dados da pasta de trabalho para revelar as tendências e padrões que o modelo foi projetado para encontrar.
Nota:
Você não pode aplicar um modelo de aprendizado de máquina do sistema Oracle aos dados de uma pasta de trabalho.