Os modelos de previsão do Oracle Analytics utilizam diversos algoritmos do Oracle Machine Learning incorporados para extrair os seus conjuntos de dados, prever um valor-alvo ou identificar classes de registos. Utilize o editor de fluxos de dados para criar, treinar e aplicar os modelos de previsão aos seus dados.
Um modelo de previsão do Oracle Analytics aplica um algoritmo específico a um conjunto de dados para prever valores, prever classes ou identificar grupos nos dados.
Também pode utilizar os modelos de aprendizagem automática Oracle para prever dados.
O Oracle Analytics inclui algoritmos para o ajudar a treinar modelos de previsão para vários fins. Exemplos de algoritmos são as árvores de classificação e regressão (CART), a regressão logística e k-means.
Utilize o editor de fluxos de dados para treinar primeiro um modelo num conjunto de dados de treino. Após o treino do modelo de previsão, pode aplicá-lo aos conjuntos de dados que pretende prever.
Pode disponibilizar um modelo treinado aos outros utilizadores que o podem aplicar aos respetivos dados para prever valores. Em alguns casos, determinados utilizadores treinam modelos e outros utilizadores aplicam os modelos.
Nota:
Se não souber o que procurar nos seus dados, pode começar por utilizar a funcionalidade Explicar, que utiliza a aprendizagem automática para identificar tendências e padrões. Em seguida, pode utilizar o editor de fluxos de dados para criar e treinar modelos de previsão para definir o nível de detalhe para as tendências e os padrões que a funcionalidade Explicar encontrou.Utilize o modelo terminado para pontuar os dados desconhecidos, ou sem etiqueta, para gerar um conjunto de dados num fluxo de dados ou acrescentar uma visualização da previsão a um livro.
Exemplo
Suponha que pretende criar e treinar um modelo de classificação múltipla para prever quais os pacientes com um risco elevado de desenvolvimento de doenças cardíacas.
O Oracle Analytics fornece algoritmos para todas as suas necessidades de modelagem de aprendizagem automática: previsão numérica, vários classificadores, classificador binário e clustering.
A funcionalidade de aprendizagem automática da Oracle destina-se aos analistas de dados avançados que sabem o que estão à procura nos dados, estão familiarizados com a prática de análise preditiva e compreendem as diferenças entre os algoritmos.
Nota:
Se estiver a utilizar dados com origem no Oracle Autonomous Data Warehouse, pode utilizar a capacidade de AutoML para treinar um modelo de previsão de forma rápida e fácil, sem necessitar de conhecimentos de aprendizagem automática. Consulte Treinar um Modelo de Previsão Utilizando AutoML no Autonomous Data Warehouse.Normalmente, os utilizadores querem criar vários modelos de previsão, compará-los e escolher aquele que tem maior probabilidade de fornecer resultados que satisfazem os critérios e requisitos pretendidos. Estes critérios podem variar. Por exemplo, às vezes os utilizadores escolhem modelos com uma melhor precisão global, outras vezes os utilizadores escolhem modelos que têm o menor número de erros de tipo I (falso positivo) e tipo II (falso negativo), e outras vezes ainda os utilizadores escolhem modelos que devolvem resultados mais rapidamente e com um nível aceitável de exatidão, mesmo que os resultados não sejam ideais.
O Oracle Analytics contém vários algoritmos de aprendizagem automática para cada tipo de previsão ou classificação. Com estes algoritmos, os utilizadores podem criar mais de um modelo, utilizar diferentes parâmetros otimizados ou utilizar diferentes conjuntos de dados de treino de entrada de dados e, em seguida, escolher o melhor modelo. O utilizador pode escolher o melhor modelo ao comparar e ponderar os modelos em relação aos seus próprios critérios. Para determinar qual o melhor modelo, os utilizadores podem aplicar o modelo e visualizar os resultados dos cálculos para determinar a exatidão ou podem abrir e explorar os conjuntos de dados relacionados que o Oracle Analytics utilizou no modelo para saída de dados.
Consulte esta tabela para obter informações sobre os algoritmos fornecidos:
Nome | Tipo | Categoria | Função | Descrição |
---|---|---|---|---|
CART |
Classificação Regressão |
Classificador Binário Vários Classificadores Numérico |
- | Utiliza árvores de decisões para prever valores discretos e contínuos.
Utilize com conjuntos de dados de grandes dimensões. |
Regressão Linear de Rede Elástica | Regressão | Numérico | ElasticNet | Modelo de regressão avançado. Fornece informações adicionais (regularização), efetua a seleção de variáveis e efetua combinações lineares. Penalizações dos métodos de regressão Lasso e Ridge.
Utilize com um grande número de atributos para evitar a colinearidade (onde vários atributos têm uma correlação perfeita) e o sobreajustamento. |
Hierárquico | Clustering | Clustering | AgglomerativeClustering | Cria uma hierarquia de clustering utilizando ascendente (cada observação é o seu próprio cluster e depois é fundida) ou descendente (todas as observações começam como um cluster) e métricas de distância.
Utilize quando o conjunto de dados não é grande e o número de clusters não é conhecido antecipadamente. |
K-Means | Clustering | Clustering | k-means | Particiona iterativamente os registos em clusters k em que cada observação pertence ao cluster com a média mais próxima.
Utilize para colunas de métrica de clustering e com uma expectativa definida do número de clusters necessários. Funciona bem com conjuntos de dados de grandes dimensões. Os resultados são diferentes em cada execução. |
Regressão Linear | Regressão | Numérico | Mínimos Quadrados Ordinários
Ridge Lasso |
Abordagem linear para uma relação de modelagem entre a variável de destino e outros atributos no conjunto de dados.
Utilize para prever valores numéricos quando os atributos não têm uma correlação perfeita. |
Regressão Logística | Regressão | Classificador Binário | LogisticRegressionCV | Utilize para prever o valor de uma variável dependente categoricamente. A variável dependente é uma variável binária que contém dados codificados para 1 ou 0. |
Naive Bayes | Classificação |
Classificador Binário Vários Classificadores |
GaussianNB | Classificação probabilística baseada no teorema de Bayes que assume a independência entre características.
Utilize quando existir um número elevado de dimensões de entrada de dados. |
Rede Neural | Classificação |
Classificador Binário Vários Classificadores |
MLPClassifier | Algoritmo de classificação iterativa que aprende ao comparar o respetivo resultado de classificação com o valor real, devolvendo-o à rede para modificar o algoritmo para iterações adicionais.
Utilize para a análise de texto. |
Floresta Aleatória | Classificação |
Classificador Binário Vários Classificadores Numérico |
- | Um método de aprendizagem de conjunto que constrói várias árvores de decisões e fornece o valor que representa coletivamente todas as árvores de decisões.
Utilize para prever variáveis numéricas e categóricas. |
SVM | Classificação |
Classificador Binário Vários Classificadores |
LinearSVC, SVC | Classifica os registos efetuando a respetiva correspondência no espaço e construindo hiperplanos que podem ser utilizados para a classificação. É efetuada a correspondência dos novos registos (dados de pontuação) no espaço, prevendo-se que pertençam a uma categoria, a qual se baseia no lado do hiperplano em que se situam. |
Ao utilizar dados do Oracle Autonomous Data Warehouse, pode utilizar a respetiva capacidade de AutoML para recomendar e treinar um modelo de previsão. O AutoML analisa os seus dados, calcula o melhor algoritmo a utilizar e regista um modelo de previsão no Oracle Analytics para que possa fazer previsões sobre os seus dados.
OML_Developer
e não é um super utilizador 'admin'. Caso contrário, o fluxo de dados falha quando tenta gravá-lo ou executá-lo.Com base no problema que é necessário resolver, um analista de dados avançado escolhe um algoritmo adequado para treinar um modelo de previsão e, em seguida, avalia os resultados do modelo.
Chegar a um modelo de elevada precisão é um processo iterativo e um analista de dados avançado pode experimentar diferentes modelos, comparar os respetivos resultados e otimizar os parâmetros com base numa abordagem de tentativa e erro. Um analista de dados pode utilizar o modelo de previsão preciso e finalizado para prever tendências noutros conjuntos de dados ou acrescentar o modelo a livros.
Nota:
Se estiver a utilizar dados com origem no Oracle Autonomous Data Warehouse, pode utilizar a capacidade de AutoML para treinar um modelo de previsão de forma rápida e fácil, sem necessitar de conhecimentos de aprendizagem automática. Consulte Treinar um Modelo de Previsão Utilizando AutoML no Autonomous Data Warehouse.O Oracle Analytics fornece algoritmos para previsão numérica, classificação múltipla, classificação binária e clustering.
O Oracle Analytics permite-lhe treinar modelos de aprendizagem automática utilizando passos nos fluxos de dados. Quando tiver treinado um modelo de aprendizagem automática, aplique-o aos seus dados utilizando o passo Aplicar Modelo.
Nome do Passo | Descrição |
---|---|
AutoML (requer o Oracle Autonomous Data Warehouse) | Utilize a capacidade de AutoML do Oracle Autonomous Data Warehouse para recomendar e treinar um modelo de previsão. O passo AutoML analisa os seus dados, calcula o melhor algoritmo a utilizar e regista um modelo de previsão no Oracle Analytics. |
Treinar Classificador Binário |
Treine um modelo de aprendizagem automática para classificar os seus dados numa das duas categorias predefinidas. |
Treinar Clustering | Treine um modelo de aprendizagem automática para segregar grupos com traços semelhantes e atribuir os mesmos a clusters. |
Treinar Vários Classificadores | Treine um modelo de aprendizagem automática para classificar os seus dados em três ou mais categorias predefinidas. |
Treinar Previsão Numérica | Treine um modelo de aprendizagem automática para prever um valor numérico com base em valores de dados conhecidos. |
Depois de criar o modelo de previsão e de executar o fluxo de dados, pode analisar as informações sobre o modelo para determinar a respetiva exatidão. Utilize estas informações para ajustar iterativamente as definições do modelo de forma a melhorar a respetiva exatidão e prever melhores resultados.
As informações detalhadas de um modelo de previsão ajudam-no a compreender o modelo e a determinar se é adequado para prever os seus dados. Os detalhes do modelo incluem a respetiva classe do modelo, algoritmo, colunas de entrada de dados e colunas de saída de dados
Visualize informações que o ajudam a compreender a qualidade de um modelo de previsão. Por exemplo, pode analisar métricas de exatidão, como exatidão do modelo, precisão, recall, valor F1 e taxa de falsos positivos.
Quando executa o fluxo de dados para criar o modelo de treino do modelo de previsão do Oracle Analytics, o Oracle Analytics cria um conjunto de conjuntos de dados relacionados. Pode abrir e criar livros nestes conjuntos de dados para obter informações sobre a exatidão do modelo.
Dependendo do algoritmo escolhido para o seu modelo, os conjuntos de dados relacionados contêm detalhes sobre o modelo, tais como regras de previsão, métricas de exatidão, matriz de confusão e fatores condutores chave para previsão. Pode utilizar estas informações para otimizar o modelo com vista a obter melhores resultados e pode utilizar os conjuntos de dados relacionados para comparar modelos e decidir qual o modelo com maior exatidão.
Por exemplo, pode abrir um conjunto de dados Fatores Condutores para descobrir que colunas têm uma influência positiva ou negativa forte no modelo. Ao examinar essas colunas, verifica que algumas colunas não são tratadas como variáveis do modelo porque não são entradas de dados realistas ou que são demasiado granulares para a previsão. Utilize o editor de fluxos de dados para abrir o modelo e, com base nas informações descobertas, retire as colunas irrelevantes ou demasiado granulares e volte a gerar o modelo. Observe o separador Qualidade e Resultados e verifique se a exatidão do modelo melhorou. Continue este processo até ficar satisfeito com a exatidão do modelo e este estar pronto para pontuar um novo conjunto de dados.
Algoritmos diferentes geram conjuntos de dados relacionados semelhantes. Os parâmetros e os nomes de colunas individuais podem mudar no conjunto de dados consoante o tipo de algoritmo, mas a funcionalidade do conjunto de dados permanece igual. Por exemplo, os nomes das colunas num conjunto de dados estatísticos podem mudar de Regressão Linear para Regressão Logística, mas o conjunto de dados estatísticos contém as métricas de exatidão do modelo.
Conjuntos de Dados Relacionados para Modelos AutoML
Quando treina um modelo de previsão utilizando o AutoML, o Oracle Analytics cria conjuntos de dados adicionais que contêm informações úteis sobre o modelo. O número de conjuntos de dados criados depende do algoritmo do modelo. Por exemplo, para os modelos Naive Bayes, o Oracle Analytics cria um conjunto de dados que fornece informações sobre as probabilidades condicionais. Para um modelo de árvore de decisões, o conjunto de dados fornece informações sobre as estatísticas da árvore de decisões. Quando inspeciona um modelo gerado por AutoML utilizando o algoritmo GLM, vê entradas (com o prefixo GLM*) para os conjuntos de dados específicos do modelo que contêm informações de metadados sobre o modelo.
.png
Conjuntos de Dados Relacionados
CARTree
Este conjunto de dados é uma representação tabular de CART (Árvore de Decisões), calculado para prever os valores das colunas de destino. Contém colunas que representam as condições e os critérios das condições na árvore de decisões, uma previsão para cada grupo e a confiança da previsão. A visualização de Diagrama em Árvore integrada pode ser utilizada para visualizar esta árvore de decisões.
O conjunto de dados CARTree é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para Previsão Numérica |
Classificação Binária | CART (Árvore de Decisões) |
Classificação Múltipla | CART (Árvore de Decisões) |
Relatório Classificação
Este conjunto de dados é uma representação tabular das métricas de exatidão para cada valor distinto da coluna de destino. Por exemplo, caso a coluna de destino possa ter os dois valores distintos Sim e Não, este conjunto de dados mostra métricas de exatidão como F1, Precisão, Recall e Suporte (o número de linhas no conjunto de dados de treino com este valor) para cada valor distinto da coluna de destino.
O conjunto de dados Classificação é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Naive Bayes Rede Neural Máquina de Vetores de Suporte |
Classificação Múltipla |
Naive Bayes Rede Neural Máquina de Vetores de Suporte |
Matriz de Confusão
Este conjunto de dados, também denominado matriz de erros, é uma disposição de tabela dinâmica. Cada linha representa uma instância de uma classe prevista e cada coluna representa uma instância numa classe real. Esta tabela reporta o número de falsos positivos, falsos negativos, verdadeiros positivos e verdadeiros negativos, que são utilizados para calcular as métricas de exatidão de precisão, recall e F1.
O conjunto de dados Matriz de Confusão é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Regressão Logística CART (Árvore de Decisões) Naive Bayes Rede Neural Floresta Aleatória Máquina de Vetores de Suporte |
Classificação Múltipla |
CART (Árvore de Decisões) Naive Bayes Rede Neural Floresta Aleatória Máquina de Vetores de Suporte |
Fatores Condutores
Este conjunto de dados fornece informações sobre as colunas que determinam os valores das colunas de destino. São utilizadas regressões lineares para identificar estas colunas. São atribuídos valores de coeficiente e correlação a cada coluna. O valor de coeficiente descreve a ponderação da coluna utilizada para determinar o valor da coluna de destino. O valor de correlação indica a direção da relação entre a coluna de destino e a coluna dependente. Por exemplo, se o valor da coluna de destino aumenta ou diminui com base na coluna dependente.
O conjunto de dados Fatores Condutores é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Numérico |
Regressão Linear Regressão Linear de Rede Elástica |
Classificação Binária |
Regressão Logística Máquina de Vetores de Suporte |
Classificação Múltipla | Máquina de Vetores de Suporte |
Hitmap
Este conjunto de dados contém informações sobre os nós folha da árvore de decisões. Cada linha na tabela representa um nó folha e contém informações que descrevem o que esse nó folha representa, como o tamanho do segmento, a confiança e o número esperado de linhas. Por exemplo, o número esperado de previsões corretas = Tamanho do Segmento * Confiança.
O conjunto de dados Hitmap é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para Previsão Numérica |
Valores Residuais
Este conjunto de dados fornece informações sobre a qualidade das previsões residuais. Um valor residual é a diferença entre o valor medido e o valor previsto de um modelo de regressão. Este conjunto de dados contém um valor de soma agregada da diferença absoluta entre os valores reais e previstos para todas as colunas no conjunto de dados.
O conjunto de dados Valores Residuais é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Numéricos |
Regressão Linear Regressão Linear de Rede Elástica CART para Previsão Numérica |
Classificação Binária | CART (Árvore de Decisões) |
Classificação Múltipla | CART (Árvore de Decisões) |
Estatística
As métricas deste conjunto de dados dependem do algoritmo utilizado para o gerar. Tenha em atenção esta lista de métricas baseadas no algoritmo:
Este conjunto de dados é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmo |
---|---|
Numérico |
Regressão Linear Regressão Linear de Rede Elástica CART para Previsão Numérica |
Classificação Binária |
Regressão Logística CART (Árvore de Decisões) Naive Bayes Rede Neural Floresta Aleatória Máquina de Vetores de Suporte |
Classificação Múltipla |
Naive Bayes Rede Neural Floresta Aleatória Máquina de Vetores de Suporte |
Resumo
Este conjunto de dados contém informações como o nome do Destino e o nome do Modelo.
O conjunto de dados Resumo é fornecido quando seleciona estas combinações de modelo e algoritmo.
Modelo | Algoritmos |
---|---|
Classificação Binária |
Naive Bayes Rede Neural Máquina de Vetores de Suporte |
Classificação Múltipla |
Naive Bayes Rede Neural Máquina de Vetores de Suporte |
Os conjuntos de dados relacionados são gerados quando treina um modelo de previsão.
Quando cria um cenário num livro, aplica um modelo de previsão ao conjunto de dados do livro para revelar as tendências e os padrões encontrados por esse modelo específico.
Nota:
Não pode aplicar um modelo de aprendizagem automática Oracle aos dados de um livro.