Crearea şi utilizarea de modele predictive Oracle Analytics

Modelele predictive Oracle Analytics utilizează mai mulţi algoritmi de învăţare automată Oracle înglobaţi pentru a explora seturile de date, a anticipa o valoare ţintă sau a identifica clase de înregistrări. Utilizaţi editorul de flux de date pentru a crea, a antrena şi a aplica modele predictive datelor dvs.

Ce sunt modelele predictive Oracle Analytics?

Un model predictiv Oracle Analytics aplică un algoritm specific la un set de date pentru a estima valori, a anticipa clase sau a identifica grupuri în date.

De asemenea, puteţi utiliza modelele Oracle de învăţare automată pentru a prognoza date.

Oracle Analytics include algoritmi pentru a vă ajuta să instruiţi modele predictive în diferite scopuri. Câteva exemple de algoritmi sunt arborii de clasificare şi de regresie (CART), regresia logistică şi mediile K.

Utilizaţi Editorul de fluxuri de date pentru a instrui mai întâi un model pe un set de date de instruire. După instruirea modelului predictiv, îl aplicaţi la seturile de date pe care doriţi să le anticipaţi.

Puteţi pune un model instruit la dispoziţia altor utilizatori care îl pot aplica la datele lor pentru a anticipa valori. În unele cazuri, anumiţi utilizatori instruiesc modele şi alţi utilizatori le aplică.

Notă:

Dacă nu ştiţi sigur ce să căutaţi în datele dvs., puteţi utiliza Explain la început, care utilizează învăţarea automată pentru a identifica tendinţe şi tipare. Apoi puteţi să utilizaţi Editorul de fluxuri de date pentru a crea şi a instrui modele predictive pentru a detalia tendinţele şi tiparele găsite de Explain.
Utilizaţi Editorul de fluxuri de date pentru a instrui un model:
  • Mai întâi, creaţi un flux de date şi adăugaţi setul de date pe care doriţi să-l utilizaţi pentru a instrui modelul. Acest set de date de instruire conţine datele pe care doriţi să le anticipaţi (de exemplu, o valoare pentru vânzări sau vârstă sau o variabilă precum grupa de risc de creditare).
  • Dacă este necesar, puteţi utiliza Editorul de fluxuri de date pentru a edita setul de date adăugând, selectând şi alăturând coloane etc.
  • După ce confirmaţi că datele sunt cele dorite pentru instruirea modelului, adăugaţi un pas de instruire în fluxul de date şi alegeţi o clasificare (binară sau multiplă), o regresie sau un algoritm de clusterizare pentru instruirea unui model. Apoi denumiţi modelul rezultat, salvaţi fluxul de date şi rulaţi-l pentru a instrui şi a crea modelul.
  • Examinaţi proprietăţile din obiectele de învăţare automată pentru a stabili calitatea modelului. Dacă este necesar, puteţi repeta procesul de instruire până când modelul ajunge la calitatea pe care o doriţi.

Utilizaţi modelul final pentru a evalua datele necunoscute sau neetichetate, pentru a genera un set de date din cadrul unui flux de date sau pentru a adăuga o vizualizare de predicţie într-un registru de lucru.

Exemplu

Să presupunem că doriţi să creaţi şi să instruiţi un model cu mai multe clasificări pentru a anticipa care pacienţi au un risc ridicat de a dezvolta o afecţiune cardiacă.

  1. Furnizaţi un set de date de instruire care conţine atribute ale pacienţilor individuali, precum vârsta, sexul, dacă au simţit vreodată dureri în zona pieptului, şi metrici, precum tensiunea arterială, glicemia à jeun, colesterolul şi pulsul maxim. Setul de date de instruire conţine şi o coloană denumită "Probabilitate" căreia îi este asignată una dintre următoarele valori: Absentă, Puţin probabilă, Probabilă, Foarte probabilă sau Prezentă.
  2. Alegeţi algoritmul CART (Arbore decizional) deoarece ignoră coloanele redundante care nu adaugă valoare pentru predicţie şi care identifică şi utilizează doar coloane care sunt utile pentru anticiparea ţintei. Când adăugaţi algoritmul în fluxul de date, alegeţi coloana Probabilitate pentru a instrui modelul. Algoritmul utilizează învăţarea automată pentru a alege coloanele de factori necesare pentru a realiza şi a genera predicţii şi seturi de date corelate.
  3. Inspectaţi rezultatele şi reglaţi fin modelul de instruire, apoi aplicaţi modelul la un set de date mai mare pentru a anticipa care pacienţi au o probabilitate ridicată de a avea sau a dezvolta o afecţiune cardiacă.

Cum aleg un algoritm de model predictiv?

Oracle Analytics furnizează algoritmi pentru oricare cerinţă de modelare a învăţării automate: predicţie numerică, mai mulţi clasificatori, clasificator binar şi clusterizare.

Funcţionalitatea Oracle de învăţare automată este destinată analiştilor de date avansaţi care ştiu ce caută în date, sunt familiarizaţi cu practicile de analiză predictivă şi înţeleg diferenţele dintre algoritmi.

Notă:

Dacă utilizaţi date care provin din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea AutoML pentru a instrui rapid şi uşor un model predictiv pentru dvs., fără a fi necesar să fiţi familiarizat cu învăţarea automată. Consultaţi Instruirea unui model predictiv utilizând AutoML în Autonomous Data Warehouse.

În mod normal, utilizatorii doresc să creeze mai multe modele de predicţie, să le compare şi să-l aleagă pe cel care este cel mai probabil să ofere rezultate care corespund criteriilor şi cerinţelor lor. Aceste criterii pot varia. De exemplu, uneori utilizatorii aleg modele care au o precizie generală mai bună, uneori aleg modele care au cele mai puţine erori de tip I (fals pozitive) şi de tip II (fals negative), iar alteori aleg modele care returnează rezultate mai rapid şi cu un nivel acceptabil de precizie chiar dacă rezultatele nu sunt ideale.

Oracle Analytics conţine mai mulţi algoritmi de învăţare automată pentru fiecare tip de predicţie sau clasificare. Cu aceşti algoritmi, utilizatorii pot să creeze mai multe modele sau pot să utilizeze diferiţi parametri reglaţi fin sau să utilizeze diferite seturi de date de instruire de intrare şi apoi să aleagă cel mai bun model. Utilizatorii pot să aleagă cel mai bun model comparând şi ponderând modele pe baza propriilor criterii. Pentru a stabili care este cel mai bun model, utilizatorii pot să aplice modelul şi să vizualizeze rezultatele calculelor pentru a stabili acurateţea sau pot să deschidă şi să exploreze seturile de date corelate pe care le-a generat Oracle Analytics utilizând modelul.

Consultaţi acest tabel pentru a afla informaţii despre algoritmii furnizaţi:

Nume Tip Categorie Funcţie Descriere
CART

Clasificare

Regresie

Clasificator binar

Mai mulţi clasificatori

Numeric

- Utilizează arbori decizionali pentru a anticipa valorile discrete şi continue.

Se utilizează cu seturi mari de date.

Regresie liniară netă elastică Regresie Numeric ElasticNet Model de regresie avansată. Oferă informaţii suplimentare (pentru regularizare), efectuează o selecţie variabilă şi realizează combinaţii liniare. Penalizările metodelor de regresie Lasso şi Ridge.

Se utilizează cu un număr mare de atribute pentru a evita colinearitatea (când mai multe atribute sunt corelate perfect) şi supraajustarea.

Ierarhic Clusterizare Clusterizare AgglomerativeClustering Generează o ierarhie de clusterizare utilizând metrici ascendente (fiecare observaţie este propriul cluster şi apoi este fuzionată) sau descendente (toate observaţiile încep ca un cluster) şi pentru distanţă.

Se utilizează când setul de date nu este mare şi numărul de clustere nu este cunoscut dinainte.

Medii K Clusterizare Clusterizare Medii K Partiţionează iterativ înregistrările în clustere K, unde fiecare observaţie aparţine clusterului cu media cea mai apropiată.

Se utilizează pentru coloanele cu metrici de clusterizare şi cu un număr stabilit de clustere necesare aşteptate. Funcţionează bine cu seturile de date mari. Rezultatele sunt diferite la fiecare rulare.

Regresie liniară Regresie Numeric Cele mai mici pătrate obişnuite

Ridge

Lasso

Abordare liniară pentru o relaţie de modelare între variabila ţintă şi alte atribute din setul de date.

Se utilizează pentru a anticipa valori numerice când atributele nu sunt corelate perfect.

Regresie logistică Regresie Clasificator binar LogisticRegressionCV Se utilizează pentru a anticipa valoarea unei variabile dependente de categorie. Variabila dependentă este binară şi conţine date codificate cu 1 sau 0.
Naive Bayes Clasificare

Clasificator binar

Mai mulţi clasificatori

GaussianNB Clasificare probabilistică bazată pe teorema lui Bayes care presupune că nu există nicio dependenţă între caracteristici.

Se utilizează când există un număr mare de dimensiuni de intrare.

Reţele neuronale Clasificare

Clasificator binar

Mai mulţi clasificatori

MLPClassifier Algoritm de clasificare iterativ care învaţă comparând rezultatul clasificării cu valoarea efectivă şi o returnează în reţea pentru ca algoritmul să fie modificat pentru alte iteraţii.

Se utilizează pentru analiză de text.

Pădure aleatorie Clasificare

Clasificator binar

Mai mulţi clasificatori

Numeric

- O metodă de învăţare de ansamblu care construieşte mai mulţi arbori decizionali şi generează valoarea care reprezintă în mod colectiv toţi arborii decizionali.

Se utilizează pentru a anticipa variabile numerice şi de tip Categorie.

SVM Clasificare

Clasificator binar

Mai mulţi clasificatori

LinearSVC, SVC Clasifică înregistrările mapându-le în spaţiu şi construind hiperplanuri care pot fi utilizate pentru clasificare. Înregistrările noi (date de evaluare) sunt mapate în spaţiu şi se anticipează că aparţin unei categorii, care este bazată pe partea hiperplanului în care se încadrează.

Instruirea unui model predictiv utilizând AutoML în Autonomous Data Warehouse

Când utilizaţi date din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea sa AutoML pentru a recomanda şi instrui un model predictiv. AutoML vă analizează datele, calculează cel mai bun algoritm care să se utilizeze şi înregistrează un model de predicţie în Oracle Analytics pentru ca dvs. să puteţi face predicţii pe baza datelor.

Utilizarea AutoML înseamnă că Oracle Autonomous Data Warehouse se ocupă de tot ce este nevoie pentru ca dvs. să puteţi implementa un model de predicţie fără să trebuiască să fiţi familiarizat cu învăţarea automată sau inteligenţa artificială. Modelul de predicţie generat este salvat în zona Modele, de pe pagina Învăţare automată. Pentru a face predicţii privind datele pe baza noului model, creaţi un flux de date şi utilizaţi etapa Aplicare model.
Înainte de a începe:
  • Creaţi un set de date pe baza datelor din Oracle Autonomous Data Warehouse pentru care doriţi să faceţi predicţii. De exemplu, puteţi avea date despre uzura angajaţilor, care includ un câmp denumit ATTRITION, care indică 'Da' sau 'Nu' pentru uzură.
  • Verificaţi dacă utilizatorul bazei de date specificat în conexiunea Oracle Analytics la Oracle Autonomous Data Warehouse are rolul OML_Developer şi nu este un super-utilizator 'admin'. În caz contrar, fluxul de date va eşua atunci când încercaţi să îl salvaţi sau să îl rulaţi.
  1. Pe pagina Home, faceţi clic pe Creare, apoi faceţi clic pe Flux de date.
  2. În Adăugare set de date, selectaţi setul de date care conţine datele din Oracle Autonomous Data Warehouse pe care doriţi să le analizaţi.
  3. Faceţi clic pe Adăugaţi un pas, apoi faceţi clic pe AutoML.
  4. Pentru Destinaţie, faceţi clic pe Selectaţi o coloană şi selectaţi coloana de date care conţine valoarea pentru care încercaţi să faceţi predicţii.
    De exemplu, pentru a face predicţii despre uzura angajaţilor, puteţi selecta un câmp denumit ATTRITION care indică 'TRUE' sau 'FALSE', pentru a indica dacă angajaţii au părăsit sau nu organizaţia.

  5. Acceptaţi valorile sugerate, recomandate de Oracle Analytics pentru Tip sarcină şi Metrică pentru ierarhizarea modelului, sau selectaţi un alt algoritm.
  6. Faceţi clic pe Salvare model şi specificaţi numele modelului de predicţie generat.
  7. Faceţi clic pe Salvare şi specificaţi un nume pentru fluxul de date.
  8. Faceţi clic pe Rulare pentru a analiza datele şi a genera un model predictiv.
  9. Din pagina home, faceţi clic pe Navigare, apoi pe Învăţare automată, apoi clic dreapta pe modelul generat şi selectaţi Inspectare.
Puteţi găsi modelul pe care îl generează Oracle Analytics pe pagina Învăţare automată din fila Modele. Inspectaţi modelul pentru a-i evalua calitatea. Consultaţi Evaluarea calităţii unui model predictiv. Puteţi consulta şi seturi de date corelate, care sunt generate pentru modelele generate de AutoML. Consultaţi Care sunt seturile de date corelate ale unui model predictiv?.

Crearea şi instruirea unui model predictiv

Analiştii de date avansaţi creează şi instruiesc modele predictive, pe care să le poată utiliza pentru a implementa algoritmi de învăţare automată Oracle pentru a explora seturile de date, a anticipa o valoare ţintă sau a identifica clase de înregistrări. Utilizaţi editorul de flux de date pentru a crea şi a instrui modele predictive şi a le aplica la datele dvs.

Pictograma Tutorial Sprint LiveLabs

Ajungerea la un model precis este un proces iterativ şi un analist avansat de date poate încerca modele diferite, le poate compara rezultatele şi regla fin parametrii pe baza unor teste practice. Un analist de date poate utiliza modelul predictiv precis şi finalizat, pentru a estima tendinţele din alte seturi de date sau adăuga modelul la registre de lucru.

Notă:

Dacă utilizaţi date care provin din Oracle Autonomous Data Warehouse, puteţi utiliza capabilitatea AutoML pentru a instrui rapid şi uşor un model predictiv pentru dvs., fără a fi necesar să fiţi familiarizat cu învăţarea automată. Consultaţi Instruirea unui model predictiv utilizând AutoML în Autonomous Data Warehouse.

Oracle Analytics oferă algoritmi pentru predicţie numerică, mai multe clasificări, clasificare binară şi clustering.

  1. Pe pagina Home, faceţi clic pe Creare, apoi selectaţi Flux de date.
  2. Selectaţi setul de date pe care doriţi să-l utilizaţi pentru a instrui modelul. Faceţi clic pe Adăugare.
  3. În Editorul de fluxuri de date, faceţi clic pe Adăugaţi un pas (+).
    După adăugarea unui set de date, puteţi fie să utilizaţi toate coloanele din setul de date pentru a genera modelul, fie să selectaţi doar coloanele relevante. Alegerea coloanelor relevante presupune înţelegerea setului de date. Ignoraţi coloanele care nu vor influenţa comportamentul rezultat sau care conţin informaţii redundante. Puteţi alege doar coloanele relevante, adăugând pasul Selectare coloane. Dacă nu sunteţi sigur care sunt coloanele relevante, utilizaţi toate coloanele.
  4. Selectaţi unul din paşii modelului de instruire (de exemplu, Instruire predicţie numerică, sau Instruire clusterizare).
  5. Selectaţi un algoritm şi faceţi clic pe OK
  6. Dacă lucraţi cu un model supervizat precum predicţia sau clasificarea, faceţi clic pe Ţintă şi selectaţi coloana pe care încercaţi să o anticipaţi. De exemplu, în cazul în care creaţi un model pentru a anticipa venitul unei persoane, selectaţi coloana Venit.
    Dacă lucraţi cu un model nesupervizat, precum clustering, nu este obligatorie o coloană ţintă.
  7. Schimbaţi setările prestabilite pentru model pentru a regla fin şi îmbunătăţi precizia rezultatului anticipat. Modelul cu care lucraţi stabileşte aceste setări.
  8. Faceţi clic pe pasul Salvare model şi furnizaţi un nume şi o descriere.
  9. Faceţi clic pe Salvare, introduceţi un nume şi o descriere pentru fluxul de date şi faceţi clic pe OK pentru a salva fluxul de date.
  10. Faceţi clic pe Rulare flux de date pentru a crea modelul predictiv bazat pe setul de date de intrare şi pe setările modelului furnizat.

Paşii fluxului de date pentru instruirea modelelor de învăţare automată

Oracle Analytics vă permite instruirea modelelor de învăţare automată utilizând paşii din fluxurile de date. Atunci când aţi instruit un model de învăţare automată, aplicaţi-l datelor utilizând pasul Aplicare Model.

Nume pas Descriere
AutoML (necesită Oracle Autonomous Data Warehouse) Utilizaţi capacitatea AutoML a Oracle Autonomous Data Warehouse, care vă poate recomanda un model predictiv şi-l poate instrui în locul dvs. Etapa AutoML vă analizează datele, calculează cel mai bun algoritm de utilizat şi înregistrează un model de predicţie în Oracle Analytics.
Instruire clasificator binar

Instruiţi un model de învăţare automată pentru a vă clasifica datele într-una dintre cele două categorii predefinite.

Instruire clusterizare Instruiţi un model de învăţare automată pentru a separa grupurile cu trăsături asemănătoare şi a le atribui unor clustere.
Instruire mai mulţi clasificatori Instruiţi un model de învăţare automată pentru a vă clasifica datele în trei sau mai multe categorii predefinite.
Instruire pentru predicţie numerică Instruiţi un model de învăţare automată pentru a prezice valori numerice pe baza valorilor de date cunoscute.

Inspectarea unui model predictiv

După ce creaţi modelul predictiv şi rulaţi fluxul de date, puteţi examina informaţiile despre model pentru a-i stabili precizia. Utilizaţi aceste informaţii pentru a ajusta în mod iterativ setările modelului, pentru a-i îmbunătăţi precizia şi a oferi predicţii mai bune privind rezultatele.

Vizualizarea detaliilor unui model predictiv

Informaţiile detaliate ale unui model predictiv vă ajută să înţelegeţi modelul şi să stabiliţi dacă acesta este adecvat pentru a face predicţii asupra datelor dvs. Detaliile modelului cuprind clasa modelului, algoritmul, coloanele de intrare şi coloanele de ieşire

  1. Pe pagina Home, faceţi clic pe Navigator, apoi faceţi clic pe Învăţare automată.
  2. Faceţi clic pe pictograma de meniu a unui model de instruire şi selectaţi Inspectare.
  3. Faceţi clic pe Detalii pentru a vizualiza informaţiile despre model.

Evaluarea calităţii unui model predictiv

Vizualizaţi informaţii care vă ajută să înţelegeţi calitatea unui model predictiv. De exemplu, puteţi examina metricile de acurateţe cum ar fi acurateţea modelului, precizia, reapelarea, valoarea F1 şi rata de rezultate fals pozitive.

Oracle Analytics oferă metrici similare indiferent de algoritmul utilizat pentru crearea modelului, făcând astfel uşoară comparaţia între diferite modele. În timpul procesului de creare a modelului, setul de date de intrare este împărţit în două pentru instruirea şi testarea modelului în funcţie de parametrul Procentaj partiţie de instruire. Modelul utilizează porţiunea de testare a setului de date pentru a testa acurateţea modelului generat.
Pe baza constatărilor dvs. din fila Calitate este posibil să fie necesar să ajustaţi parametrii modelului şi să îl reinstruiţi.
  1. Pe pagina Home, faceţi clic pe Navigator, apoi faceţi clic pe Învăţare automată.
  2. Faceţi clic pe pictograma de meniu a unui model de instruire şi selectaţi Inspectare.
  3. Faceţi clic pe fila Calitate pentru a examina metrica de calitate a modelului şi a evalua modelul. De exemplu, examinaţi punctajul de Acurateţe a modelului.

Sugestie: Faceţi clic pe Mai multe pentru a examina detaliile vizualizărilor generate pentru model.

Care sunt seturile de date corelate ale unui model predictiv?

Când rulaţi fluxul de date pentru a crea modelul de instruire al modelului predictiv Oracle Analytics, Oracle Analytics creează un set de seturi de date corelate. Puteţi deschide şi crea registre de lucru pe baza acestor seturi de date pentru a afla informaţii despre acurateţea modelului.

În funcţie de algoritmul pe care îl alegeţi pentru model, seturile de date corelate conţin detalii despre model, precum reguli de predicţie, metrici privind acurateţea, matrici de erori, factori esenţiali pentru predicţie. Puteţi utiliza aceste informaţii pentru a regla fin modelul pentru a obţine rezultate mai bune şi puteţi utiliza seturile de date corelate pentru a compara modelele şi decide care dintre ele este mai precis.

De exemplu, puteţi deschide un set de date Driver pentru a descoperi care dintre coloane au o puternică influenţă pozitivă sau negativă asupra modelului. Prin examinarea acestor coloane, veţi constata că unele dintre ele nu sunt tratate ca variabile ale modelului deoarece nu sunt intrări realiste sau că sunt prea granulare pentru prognoză. Utilizaţi Editorul de fluxuri de date pentru a deschide modelul şi, în funcţie de informaţiile pe care le descoperiţi, eliminaţi coloanele irelevante sau prea granulare şi generaţi din nou modelul. Consultaţi filele Calitate şi Rezultate şi verificaţi dacă acurateţea modelului s-a îmbunătăţit. Continuaţi acest proces până când sunteţi mulţumit de acurateţea modelului şi acesta este pregătit să evalueze un nou set de date.

Algoritmi diferiţi generează seturi de date corelate similare. Numele parametrilor şi coloanelor individuale se pot schimba în setul de date în funcţie de tipul algoritmului, dar funcţionalitatea setului de date rămâne aceeaşi. De exemplu, numele coloanelor dintr-un set de date statistice se pot schimba de la Regresie liniară la Regresie logistică, dar seturile de date statistice conţin metrici privind acurateţea modelului.

Seturi de date conexe pentru modelele AutoML

Când instruiţi un model predictiv cu AutoML, Oracle Analytics creează seturi de date suplimentare, care conţin informaţii utile despre model. Numărul de seturi de date create depinde de algoritmul modelului. De exemplu, pentru modelele Naive Bayes, Oracle Analytics creează un set de date care oferă informaţii despre probabilităţile condiţionate. Pentru un model de arbore decizional, setul de date oferă informaţii despre statisticile arborelui decizional. Când inspectaţi cu ajutorul algoritmului modelului liniar generalizat (GLM) un model generat cu AutoML, vedeţi intrările cu prefixul GLM* pentru seturile de date specifice modelului, care conţin informaţii ale metadatelor despre model.
Urmează descrierea GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png
.png

Seturi de date conexe

Notă:

Oracle Analytics adaugă numele rezultatului fluxului de date la tipul de set de date corelat. De exemplu, pentru un model CART, dacă rezultatul fluxului de date are numele cart_model2, setul de date este denumit cart_model2_CART.

CART

Oracle Analytics creează un tabel pentru setul de date corelat cu CART (arbore de clasificare şi regresie), care conţine coloane care reprezintă condiţiile şi criteriile condiţiilor din arborele decizional, o predicţie pentru fiecare grup şi încrederea în predicţie. Utilizaţi vizualizarea sub formă de diagramă arborescentă pentru a vizualiza acest arbore decizional.

Setul de date CART este generat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritm
Numeric CART pentru predicţie numerică
Clasificare binară CART
Mai multe clasificări CART

Raportul Clasificare

Oracle Analytics creează un tabel pentru setul de date Raport de clasificare corelat. De exemplu, în cazul în care coloana ţintă poate avea două valori distincte, Da sau Nu, acest set de date afişează metricile privind acurateţea, precum F1, precizie, reapelare şi suport (numărul de rânduri din setul de date de instruire cu această valoare) pentru fiecare valoare distinctă din coloana ţintă.

Setul de date Clasificare este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritmi
Clasificare binară

Naive Bayes

Reţele neuronale

Calculator pentru vectori de suport

Mai multe clasificări

Naive Bayes

Reţele neuronale

Calculator pentru vectori de suport

Matrice de erori

Oracle Analytics creează un tabel pivot pentru setul de date Matrice de confuzie corelat, care se mai numeşte şi matrice de erori. Fiecare rând reprezintă o instanţă a unei clase anticipate şi fiecare coloană reprezintă o instanţă dintr-o clasă reală. Acest tabel raportează numărul de rezultatele fals pozitive, fals negative, adevărat pozitive şi adevărat negative, care sunt utilizate pentru a calcula metricile privind acurateţea, precum precizie, reapelare şi F1.

Setul de date Matrice de erori este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritmi
Clasificare binară

Regresie logistică

CART (Arbore decizional)

Naive Bayes

Reţele neuronale

Pădure aleatorie

Calculator pentru vectori de suport

Mai multe clasificări

CART (Arbore decizional)

Naive Bayes

Reţele neuronale

Pădure aleatorie

Calculator pentru vectori de suport

Factori determinanţi

Oracle Analytics creează un tabel pentru setul de date Factori determinanţi corelat, care conţine informaţii despre coloanele care stabilesc valorile din coloanele ţintă. Regresiile liniare sunt utilizate pentru identificarea acestor coloane. Fiecărei coloane îi sunt asignate valori de coeficient şi de corelare. Valoarea coeficientului descrie ponderea coloanei utilizate pentru a stabili valoarea coloanei ţintă. Valoarea de corelare indică direcţia relaţiei dintre coloana ţintă şi coloana dependentă. De exemplu, dacă valoarea coloanei ţintă creşte sau scade în funcţie de coloana dependentă.

Setul de date Factori determinanţi este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritmi
Numeric

Regresie liniară

Regresie liniară netă elastică

Clasificare binară

Regresie logistică

Calculator pentru vectori de suport

Mai multe clasificări Calculator pentru vectori de suport

Hitmap

Oracle Analytics creează un tabel pentru setul de date Hitmap corelat, care conţine informaţii despre nodurile frunză ale arborelui decizional. Fiecare rând din tabel reprezintă un nod frunză şi conţine informaţii care descriu ce reprezintă nodul frunză, precum dimensiunea segmentului, încrederea şi numărul preconizat de rânduri. De exemplu, numărul preconizat de predicţii corecte = dimensiune segment * încredere.

Setul de date Hitmap este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritm
Numeric CART pentru predicţie numerică

Predicţii reziduale

Oracle Analytics creează un tabel pentru setul de date Predicţii reziduale corelat, care conţine informaţii despre calitatea predicţiilor reziduale. O predicţie reziduală reprezintă diferenţa dintre valoarea măsurată şi valoarea estimată a modelului de regresie. Acest set de date conţine o valoare a sumei agregate a diferenţei absolute dintre valorile reale şi cele anticipate pentru toate coloanele din setul de date.

Setul de date Predicţii reziduale este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritmi
Valori numerice

Regresie liniară

Regresie liniară netă elastică

CART pentru predicţie numerică

Clasificare binară CART (Arbore decizional)
Mai multe clasificări CART (Arbore decizional)

Statistici

Oracle Analytics creează un tabel pentru setul de date Statistici corelat. Metricile acestui set de date depind de algoritmul utilizat pentru generarea sa. Reţineţi această listă de metrici bazate pe algoritm:

  • Regresie liniară, CART pentru predicţie numerică, Regresie liniară netă elastică - Aceşti algoritmi conţin R-pătrat, R-pătrat ajustat, Eroare absolută medie (MAE), Eroare pătratică medie (MSE), Eroare relativă absolută (RAE), Eroare pătratică corelată (RSE), Eroare medie rădăcină pătratică (RMSE).
  • CART (Arbori de clasificare şi regresie), Clasificare Naive Bayes, Reţea neurală, Calculator pentru vectori de suport (SVM), Pădure aleatorie, Regresie logistică - Aceşti algoritmi conţin Acurateţe, F1 total.

Acest set de date este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritm
Numeric

Regresie liniară

Regresie liniară netă elastică

CART pentru predicţie numerică

Clasificare binară

Regresie logistică

CART (Arbore decizional)

Naive Bayes

Reţele neuronale

Pădure aleatorie

Calculator pentru vectori de suport

Mai multe clasificări

Naive Bayes

Reţele neuronale

Pădure aleatorie

Calculator pentru vectori de suport

Sumar

Oracle Analytics creează un tabel pentru setul de date Sumar corelat, care conţine informaţii, precum Nume destinaţie şi Nume model.

Setul de date Sumar este creat când selectaţi aceste combinaţii de modele şi algoritmi.

Model Algoritmi
Clasificare binară

Naive Bayes

Reţele neuronale

Calculator pentru vectori de suport

Mai multe clasificări

Naive Bayes

Reţele neuronale

Calculator pentru vectori de suport

Găsirea seturilor de date corelate ale unui model predictiv

Seturile de date corelate sunt generate atunci când instruiţi un model predictiv.

În funcţie de algoritm, seturile de date corelate conţin detalii despre model, de exemplu: reguli de predicţie, metrici privind acurateţea, matrici de erori, factori esenţiali pentru predicţie etc. Aceşti parametri vă ajută să înţelegeţi regulile pe care le-a utilizat modelul pentru a stabili predicţiile şi clasificările.
  1. Pe pagina Home, faceţi clic pe Navigator, apoi faceţi clic pe Învăţare automată.
  2. Faceţi clic pe pictograma de meniu a unui model de instruire şi selectaţi Inspectare.
  3. Faceţi clic pe fila Corelate pentru a accesa seturile de date corelate ale modelului.
  4. Faceţi dublu clic pe un set de date corelate pentru a-l vizualiza sau pentru a-l utiliza într-un registru de lucru.

Adăugarea unui model predictiv la un registru de lucru

Atunci când creaţi un scenariu într-un registru de lucru, aplicaţi un model predictiv la setul de date al registrului de lucru pentru a prezenta tendinţele şi tiparele pentru care a fost proiectat modelul.

Notă:

Nu puteţi aplica un model Oracle de învăţare automată la datele unui registru de lucru.
După ce adăugaţi modelul la registrul de lucru şi mapaţi intrările modelului la coloanele setului de date, panoul Date conţine obiectele modelului, pe care le puteţi glisa şi plasa pe canvas. Învăţarea automată generează valorile modelului pe baza coloanelor cu date corespunzătoare ale vizualizării.
  1. Din pagina Home, faceţi clic pe Creare şi apoi faceţi clic pe Registru de lucru.
  2. Selectaţi setul de date pe care doriţi să-l utilizaţi pentru a crea registrul de lucru şi faceţi clic pe Adăugare la registrul de lucru.
  3. În panoul Date, faceţi clic pe Adăugare şi selectaţi Creare scenariu.
  4. În dialogul Creare scenariu - Selectare model, selectaţi un model şi faceţi clic pe OK.
    Puteţi aplica numai un model predictiv. Nu puteţi aplica un model Oracle de învăţare automată.
    Dacă nu există corespondenţă între fiecare intrare din model şi un element de date, este afişat dialogul Mapaţi datele la model.
  5. Dacă este afişat dialogul Mapaţi datele la model, selectaţi setul de date care trebuie utilizat cu modelul în câmpul Set de date.
  6. Găsiţi corespondenţe între intrarea de model şi elementele de date, după caz. Faceţi clic pe Finalizat.
    Scenariul este afişat ca set de date în panoul Elemente de date.
  7. Glisaţi şi plasaţi elemente din setul şi modelul de date pe canvasul Vizualizare.
  8. Pentru a ajusta scenariul, faceţi clic dreapta pe acesta în panoul Elemente de date şi selectaţi Editare scenariu.
  9. Schimbaţi setul de date şi actualizaţi intrarea de model şi maparea elementelor de date, după caz.
  10. Faceţi clic pe Salvare pentru a salva registrul de lucru.