Modelele predictive Oracle Analytics utilizează mai mulţi algoritmi de învăţare automată Oracle înglobaţi pentru a explora seturile de date, a anticipa o valoare ţintă sau a identifica clase de înregistrări. Utilizaţi editorul de flux de date pentru a crea, a antrena şi a aplica modele predictive datelor dvs.
Un model predictiv Oracle Analytics aplică un algoritm specific la un set de date pentru a estima valori, a anticipa clase sau a identifica grupuri în date.
De asemenea, puteţi utiliza modelele Oracle de învăţare automată pentru a prognoza date.
Oracle Analytics include algoritmi pentru a vă ajuta să instruiţi modele predictive în diferite scopuri. Câteva exemple de algoritmi sunt arborii de clasificare şi de regresie (CART), regresia logistică şi mediile K.
Utilizaţi Editorul de fluxuri de date pentru a instrui mai întâi un model pe un set de date de instruire. După instruirea modelului predictiv, îl aplicaţi la seturile de date pe care doriţi să le anticipaţi.
Puteţi pune un model instruit la dispoziţia altor utilizatori care îl pot aplica la datele lor pentru a anticipa valori. În unele cazuri, anumiţi utilizatori instruiesc modele şi alţi utilizatori le aplică.
Notă:
Dacă nu ştiţi sigur ce să căutaţi în datele dvs., puteţi utiliza Explain la început, care utilizează învăţarea automată pentru a identifica tendinţe şi tipare. Apoi puteţi să utilizaţi Editorul de fluxuri de date pentru a crea şi a instrui modele predictive pentru a detalia tendinţele şi tiparele găsite de Explain.Utilizaţi modelul final pentru a evalua datele necunoscute sau neetichetate, pentru a genera un set de date din cadrul unui flux de date sau pentru a adăuga o vizualizare de predicţie într-un registru de lucru.
Exemplu
Să presupunem că doriţi să creaţi şi să instruiţi un model cu mai multe clasificări pentru a anticipa care pacienţi au un risc ridicat de a dezvolta o afecţiune cardiacă.
Oracle Analytics furnizează algoritmi pentru oricare cerinţă de modelare a învăţării automate: predicţie numerică, mai mulţi clasificatori, clasificator binar şi clusterizare.
Funcţionalitatea Oracle de învăţare automată este destinată analiştilor de date avansaţi care ştiu ce caută în date, sunt familiarizaţi cu practicile de analiză predictivă şi înţeleg diferenţele dintre algoritmi.
Notă:
Dacă utilizaţi date care provin din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea AutoML pentru a instrui rapid şi uşor un model predictiv pentru dvs., fără a fi necesar să fiţi familiarizat cu învăţarea automată. Consultaţi Instruirea unui model predictiv utilizând AutoML în Autonomous Data Warehouse.În mod normal, utilizatorii doresc să creeze mai multe modele de predicţie, să le compare şi să-l aleagă pe cel care este cel mai probabil să ofere rezultate care corespund criteriilor şi cerinţelor lor. Aceste criterii pot varia. De exemplu, uneori utilizatorii aleg modele care au o precizie generală mai bună, uneori aleg modele care au cele mai puţine erori de tip I (fals pozitive) şi de tip II (fals negative), iar alteori aleg modele care returnează rezultate mai rapid şi cu un nivel acceptabil de precizie chiar dacă rezultatele nu sunt ideale.
Oracle Analytics conţine mai mulţi algoritmi de învăţare automată pentru fiecare tip de predicţie sau clasificare. Cu aceşti algoritmi, utilizatorii pot să creeze mai multe modele sau pot să utilizeze diferiţi parametri reglaţi fin sau să utilizeze diferite seturi de date de instruire de intrare şi apoi să aleagă cel mai bun model. Utilizatorii pot să aleagă cel mai bun model comparând şi ponderând modele pe baza propriilor criterii. Pentru a stabili care este cel mai bun model, utilizatorii pot să aplice modelul şi să vizualizeze rezultatele calculelor pentru a stabili acurateţea sau pot să deschidă şi să exploreze seturile de date corelate pe care le-a generat Oracle Analytics utilizând modelul.
Consultaţi acest tabel pentru a afla informaţii despre algoritmii furnizaţi:
Nume | Tip | Categorie | Funcţie | Descriere |
---|---|---|---|---|
CART |
Clasificare Regresie |
Clasificator binar Mai mulţi clasificatori Numeric |
- | Utilizează arbori decizionali pentru a anticipa valorile discrete şi continue.
Se utilizează cu seturi mari de date. |
Regresie liniară netă elastică | Regresie | Numeric | ElasticNet | Model de regresie avansată. Oferă informaţii suplimentare (pentru regularizare), efectuează o selecţie variabilă şi realizează combinaţii liniare. Penalizările metodelor de regresie Lasso şi Ridge.
Se utilizează cu un număr mare de atribute pentru a evita colinearitatea (când mai multe atribute sunt corelate perfect) şi supraajustarea. |
Ierarhic | Clusterizare | Clusterizare | AgglomerativeClustering | Generează o ierarhie de clusterizare utilizând metrici ascendente (fiecare observaţie este propriul cluster şi apoi este fuzionată) sau descendente (toate observaţiile încep ca un cluster) şi pentru distanţă.
Se utilizează când setul de date nu este mare şi numărul de clustere nu este cunoscut dinainte. |
Medii K | Clusterizare | Clusterizare | Medii K | Partiţionează iterativ înregistrările în clustere K, unde fiecare observaţie aparţine clusterului cu media cea mai apropiată.
Se utilizează pentru coloanele cu metrici de clusterizare şi cu un număr stabilit de clustere necesare aşteptate. Funcţionează bine cu seturile de date mari. Rezultatele sunt diferite la fiecare rulare. |
Regresie liniară | Regresie | Numeric | Cele mai mici pătrate obişnuite
Ridge Lasso |
Abordare liniară pentru o relaţie de modelare între variabila ţintă şi alte atribute din setul de date.
Se utilizează pentru a anticipa valori numerice când atributele nu sunt corelate perfect. |
Regresie logistică | Regresie | Clasificator binar | LogisticRegressionCV | Se utilizează pentru a anticipa valoarea unei variabile dependente de categorie. Variabila dependentă este binară şi conţine date codificate cu 1 sau 0. |
Naive Bayes | Clasificare |
Clasificator binar Mai mulţi clasificatori |
GaussianNB | Clasificare probabilistică bazată pe teorema lui Bayes care presupune că nu există nicio dependenţă între caracteristici.
Se utilizează când există un număr mare de dimensiuni de intrare. |
Reţele neuronale | Clasificare |
Clasificator binar Mai mulţi clasificatori |
MLPClassifier | Algoritm de clasificare iterativ care învaţă comparând rezultatul clasificării cu valoarea efectivă şi o returnează în reţea pentru ca algoritmul să fie modificat pentru alte iteraţii.
Se utilizează pentru analiză de text. |
Pădure aleatorie | Clasificare |
Clasificator binar Mai mulţi clasificatori Numeric |
- | O metodă de învăţare de ansamblu care construieşte mai mulţi arbori decizionali şi generează valoarea care reprezintă în mod colectiv toţi arborii decizionali.
Se utilizează pentru a anticipa variabile numerice şi de tip Categorie. |
SVM | Clasificare |
Clasificator binar Mai mulţi clasificatori |
LinearSVC, SVC | Clasifică înregistrările mapându-le în spaţiu şi construind hiperplanuri care pot fi utilizate pentru clasificare. Înregistrările noi (date de evaluare) sunt mapate în spaţiu şi se anticipează că aparţin unei categorii, care este bazată pe partea hiperplanului în care se încadrează. |
Când utilizaţi date din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea sa AutoML pentru a recomanda şi instrui un model predictiv. AutoML vă analizează datele, calculează cel mai bun algoritm care să se utilizeze şi înregistrează un model de predicţie în Oracle Analytics pentru ca dvs. să puteţi face predicţii pe baza datelor.
OML_Developer
şi nu este un super-utilizator 'admin'. În caz contrar, fluxul de date va eşua atunci când încercaţi să îl salvaţi sau să îl rulaţi.Analiştii de date avansaţi creează şi instruiesc modele predictive, pe care să le poată utiliza pentru a implementa algoritmi de învăţare automată Oracle pentru a explora seturile de date, a anticipa o valoare ţintă sau a identifica clase de înregistrări. Utilizaţi editorul de flux de date pentru a crea şi a instrui modele predictive şi a le aplica la datele dvs.
Ajungerea la un model precis este un proces iterativ şi un analist avansat de date poate încerca modele diferite, le poate compara rezultatele şi regla fin parametrii pe baza unor teste practice. Un analist de date poate utiliza modelul predictiv precis şi finalizat, pentru a estima tendinţele din alte seturi de date sau adăuga modelul la registre de lucru.
Notă:
Dacă utilizaţi date care provin din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea AutoML pentru a instrui rapid şi uşor un model predictiv pentru dvs., fără a fi necesar să fiţi familiarizat cu învăţarea automată. Consultaţi Instruirea unui model predictiv utilizând AutoML în Autonomous Data Warehouse.Oracle Analytics oferă algoritmi pentru predicţie numerică, mai multe clasificări, clasificare binară şi clustering.
Oracle Analytics vă permite instruirea modelelor de învăţare automată utilizând paşii din fluxurile de date. Atunci când aţi instruit un model de învăţare automată, aplicaţi-l datelor utilizând pasul Aplicare Model.
Nume pas | Descriere |
---|---|
AutoML (necesită Oracle Autonomous Data Warehouse) | Utilizaţi capacitatea AutoML a Oracle Autonomous Data Warehouse, care vă poate recomanda un model predictiv şi-l poate instrui în locul dvs. Etapa AutoML vă analizează datele, calculează cel mai bun algoritm de utilizat şi înregistrează un model de predicţie în Oracle Analytics. |
Instruire clasificator binar |
Instruiţi un model de învăţare automată pentru a vă clasifica datele într-una dintre cele două categorii predefinite. |
Instruire clusterizare | Instruiţi un model de învăţare automată pentru a separa grupurile cu trăsături asemănătoare şi a le atribui unor clustere. |
Instruire mai mulţi clasificatori | Instruiţi un model de învăţare automată pentru a vă clasifica datele în trei sau mai multe categorii predefinite. |
Instruire pentru predicţie numerică | Instruiţi un model de învăţare automată pentru a prezice valori numerice pe baza valorilor de date cunoscute. |
După ce creaţi modelul predictiv şi rulaţi fluxul de date, puteţi examina informaţiile despre model pentru a-i stabili precizia. Utilizaţi aceste informaţii pentru a ajusta în mod iterativ setările modelului, pentru a-i îmbunătăţi precizia şi a oferi predicţii mai bune privind rezultatele.
Informaţiile detaliate ale unui model predictiv vă ajută să înţelegeţi modelul şi să stabiliţi dacă acesta este adecvat pentru a face predicţii asupra datelor dvs. Detaliile modelului cuprind clasa modelului, algoritmul, coloanele de intrare şi coloanele de ieşire
Vizualizaţi informaţii care vă ajută să înţelegeţi calitatea unui model predictiv. De exemplu, puteţi examina metricile de acurateţe cum ar fi acurateţea modelului, precizia, reapelarea, valoarea F1 şi rata de rezultate fals pozitive.
Când rulaţi fluxul de date pentru a crea modelul de instruire al modelului predictiv Oracle Analytics, Oracle Analytics creează un set de seturi de date corelate. Puteţi deschide şi crea registre de lucru pe baza acestor seturi de date pentru a afla informaţii despre acurateţea modelului.
În funcţie de algoritmul pe care îl alegeţi pentru model, seturile de date corelate conţin detalii despre model, precum reguli de predicţie, metrici privind acurateţea, matrici de erori, factori esenţiali pentru predicţie. Puteţi utiliza aceste informaţii pentru a regla fin modelul pentru a obţine rezultate mai bune şi puteţi utiliza seturile de date corelate pentru a compara modelele şi decide care dintre ele este mai precis.
De exemplu, puteţi deschide un set de date Driver pentru a descoperi care dintre coloane au o puternică influenţă pozitivă sau negativă asupra modelului. Prin examinarea acestor coloane, veţi constata că unele dintre ele nu sunt tratate ca variabile ale modelului deoarece nu sunt intrări realiste sau că sunt prea granulare pentru prognoză. Utilizaţi Editorul de fluxuri de date pentru a deschide modelul şi, în funcţie de informaţiile pe care le descoperiţi, eliminaţi coloanele irelevante sau prea granulare şi generaţi din nou modelul. Consultaţi filele Calitate şi Rezultate şi verificaţi dacă acurateţea modelului s-a îmbunătăţit. Continuaţi acest proces până când sunteţi mulţumit de acurateţea modelului şi acesta este pregătit să evalueze un nou set de date.
Algoritmi diferiţi generează seturi de date corelate similare. Numele parametrilor şi coloanelor individuale se pot schimba în setul de date în funcţie de tipul algoritmului, dar funcţionalitatea setului de date rămâne aceeaşi. De exemplu, numele coloanelor dintr-un set de date statistice se pot schimba de la Regresie liniară la Regresie logistică, dar seturile de date statistice conţin metrici privind acurateţea modelului.
Seturi de date conexe pentru modelele AutoML
Când instruiţi un model predictiv cu AutoML, Oracle Analytics creează seturi de date suplimentare, care conţin informaţii utile despre model. Numărul de seturi de date create depinde de algoritmul modelului. De exemplu, pentru modelele Naive Bayes, Oracle Analytics creează un set de date care oferă informaţii despre probabilităţile condiţionate. Pentru un model de arbore decizional, setul de date oferă informaţii despre statisticile arborelui decizional. Când inspectaţi cu ajutorul algoritmului modelului liniar generalizat (GLM) un model generat cu AutoML, vedeţi intrările cu prefixul GLM* pentru seturile de date specifice modelului, care conţin informaţii ale metadatelor despre model.
.png
Seturi de date conexe
Notă:
Oracle Analytics adaugă numele rezultatului fluxului de date la tipul de set de date corelat. De exemplu, pentru un model CART, dacă rezultatul fluxului de date are numele cart_model2, setul de date este denumit cart_model2_CART.CART
Oracle Analytics creează un tabel pentru setul de date corelat cu CART (arbore de clasificare şi regresie), care conţine coloane care reprezintă condiţiile şi criteriile condiţiilor din arborele decizional, o predicţie pentru fiecare grup şi încrederea în predicţie. Utilizaţi vizualizarea sub formă de diagramă arborescentă pentru a vizualiza acest arbore decizional.
Setul de date CART este generat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritm |
---|---|
Numeric | CART pentru predicţie numerică |
Clasificare binară | CART |
Mai multe clasificări | CART |
Raportul Clasificare
Oracle Analytics creează un tabel pentru setul de date Raport de clasificare corelat. De exemplu, în cazul în care coloana ţintă poate avea două valori distincte, Da sau Nu, acest set de date afişează metricile privind acurateţea, precum F1, precizie, reapelare şi suport (numărul de rânduri din setul de date de instruire cu această valoare) pentru fiecare valoare distinctă din coloana ţintă.
Setul de date Clasificare este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritmi |
---|---|
Clasificare binară |
Naive Bayes Reţele neuronale Calculator pentru vectori de suport |
Mai multe clasificări |
Naive Bayes Reţele neuronale Calculator pentru vectori de suport |
Matrice de erori
Oracle Analytics creează un tabel pivot pentru setul de date Matrice de confuzie corelat, care se mai numeşte şi matrice de erori. Fiecare rând reprezintă o instanţă a unei clase anticipate şi fiecare coloană reprezintă o instanţă dintr-o clasă reală. Acest tabel raportează numărul de rezultatele fals pozitive, fals negative, adevărat pozitive şi adevărat negative, care sunt utilizate pentru a calcula metricile privind acurateţea, precum precizie, reapelare şi F1.
Setul de date Matrice de erori este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritmi |
---|---|
Clasificare binară |
Regresie logistică CART (Arbore decizional) Naive Bayes Reţele neuronale Pădure aleatorie Calculator pentru vectori de suport |
Mai multe clasificări |
CART (Arbore decizional) Naive Bayes Reţele neuronale Pădure aleatorie Calculator pentru vectori de suport |
Factori determinanţi
Oracle Analytics creează un tabel pentru setul de date Factori determinanţi corelat, care conţine informaţii despre coloanele care stabilesc valorile din coloanele ţintă. Regresiile liniare sunt utilizate pentru identificarea acestor coloane. Fiecărei coloane îi sunt asignate valori de coeficient şi de corelare. Valoarea coeficientului descrie ponderea coloanei utilizate pentru a stabili valoarea coloanei ţintă. Valoarea de corelare indică direcţia relaţiei dintre coloana ţintă şi coloana dependentă. De exemplu, dacă valoarea coloanei ţintă creşte sau scade în funcţie de coloana dependentă.
Setul de date Factori determinanţi este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritmi |
---|---|
Numeric |
Regresie liniară Regresie liniară netă elastică |
Clasificare binară |
Regresie logistică Calculator pentru vectori de suport |
Mai multe clasificări | Calculator pentru vectori de suport |
Hitmap
Oracle Analytics creează un tabel pentru setul de date Hitmap corelat, care conţine informaţii despre nodurile frunză ale arborelui decizional. Fiecare rând din tabel reprezintă un nod frunză şi conţine informaţii care descriu ce reprezintă nodul frunză, precum dimensiunea segmentului, încrederea şi numărul preconizat de rânduri. De exemplu, numărul preconizat de predicţii corecte = dimensiune segment * încredere.
Setul de date Hitmap este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritm |
---|---|
Numeric | CART pentru predicţie numerică |
Predicţii reziduale
Oracle Analytics creează un tabel pentru setul de date Predicţii reziduale corelat, care conţine informaţii despre calitatea predicţiilor reziduale. O predicţie reziduală reprezintă diferenţa dintre valoarea măsurată şi valoarea estimată a modelului de regresie. Acest set de date conţine o valoare a sumei agregate a diferenţei absolute dintre valorile reale şi cele anticipate pentru toate coloanele din setul de date.
Setul de date Predicţii reziduale este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritmi |
---|---|
Valori numerice |
Regresie liniară Regresie liniară netă elastică CART pentru predicţie numerică |
Clasificare binară | CART (Arbore decizional) |
Mai multe clasificări | CART (Arbore decizional) |
Statistici
Oracle Analytics creează un tabel pentru setul de date Statistici corelat. Metricile acestui set de date depind de algoritmul utilizat pentru generarea sa. Reţineţi această listă de metrici bazate pe algoritm:
Acest set de date este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritm |
---|---|
Numeric |
Regresie liniară Regresie liniară netă elastică CART pentru predicţie numerică |
Clasificare binară |
Regresie logistică CART (Arbore decizional) Naive Bayes Reţele neuronale Pădure aleatorie Calculator pentru vectori de suport |
Mai multe clasificări |
Naive Bayes Reţele neuronale Pădure aleatorie Calculator pentru vectori de suport |
Sumar
Oracle Analytics creează un tabel pentru setul de date Sumar corelat, care conţine informaţii, precum Nume destinaţie şi Nume model.
Setul de date Sumar este creat când selectaţi aceste combinaţii de modele şi algoritmi.
Model | Algoritmi |
---|---|
Clasificare binară |
Naive Bayes Reţele neuronale Calculator pentru vectori de suport |
Mai multe clasificări |
Naive Bayes Reţele neuronale Calculator pentru vectori de suport |
Seturile de date corelate sunt generate atunci când instruiţi un model predictiv.
Atunci când creaţi un scenariu într-un registru de lucru, aplicaţi un model predictiv la setul de date al registrului de lucru pentru a prezenta tendinţele şi tiparele pentru care a fost proiectat modelul.
Notă:
Nu puteţi aplica un model Oracle de învăţare automată la datele unui registru de lucru.