Evaluaţi modelele de învăţare automată utilizând diagrame de creştere şi câştig

Diagramele de creştere şi câştig vă permit să comparaţi diferite modele de învăţare automată, pentru a determina cel mai precis model.

Prezentare generală pentru utilizarea diagramelor de creştere şi câştig

Diagramele de creştere şi câştig vă permit să evaluaţi modelele de învăţare automată predictive prin maparea statisticilor de modelare dintr-o vizualizare în Oracle Analytics.

Când utilizaţi un flux de date pentru aplicarea unui model de clasificare pentru un set de date, Oracle Analytics vă permite să calculaţi valorile pentru creştere şi câştig. Puteţi vizualiza aceste date într-o diagramă pentru a vă ajuta să evaluaţi acurateţea modelelor predictive şi să determinaţi care este mai bun pentru utilizare.

Urmează descrierea GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png
.png

Cerinţe preliminare

  • Oracle Database sau Oracle Autonomous Data Warehouse
  • Un model de clasificare care include probabilitatea predicţiei (de exemplu, un model cu mai mulţi clasificatori creat cu ajutorul scriptului de instruire Naive Bayes).

    Accesaţi modelele predictive existente în zona Învăţare automată din Oracle Analytics.

Statistici generate pentru analiza de creştere şi câştig

Când aplicaţi un model de clasificare predictiv la un set de date şi generaţi statistici de creştere şi câştig, produceţi un set de date denumit <Data flow name>_LIFT cu aceste coloane:
  • PopulationPercentile - populaţia setului de date este divizată în 100 de grupuri egale.
  • CumulativeGain - raportul între numărul cumulat de destinaţii pozitive până la acea percentilă, faţă de numărul total de destinaţii pozitive. Cu cât linia de creşteri cumulate este mai aproape de colţul stânga sus al diagramei, cu atât este mai mare creşterea; cu atât este mai mare proporţia respondenţilor ce au atins proporţia inferioară de clienţi contactaţi.
  • GainChartBaseline - rata totală de răspuns: linia reprezintă procentul de înregistrări pozitive la care ne aşteptăm dacă selectăm înregistrările aleator. De exemplu, într-o campanie de marketing, dacă contactăm X% dintre clienţi aleator, vom primi X% din totalul răspunsurilor pozitive.
  • LiftChartBaseline - valoare de 1 şi utilizată ca linie de bază pentru comparaţia creşterii.
  • LiftValue - creşterea cumulată pentru o percentilă. Creşterea este raportul densităţii de înregistrări pozitive cumulare pentru datele selectate, faţă de densitatea pozitivă pentru toate datele de testare.
  • IdealModelLine - raportul între numărul cumulat de destinaţii pozitive, faţă de numărul total de destinaţii pozitive.
  • OptimalGain - acesta indică numărul optim de clienţi de contactat. Curba de câştig cumulat se va aplatiza după acest punct.

Puteţi vizualiza setul de date <Data flow name>_LIFT într-o diagramă Oracle Analytics. De exemplu, pentru analizarea câştigurilor, puteţi mapa PopulationPercentile pe axa X, şi CumulativeGain, GainChartBaseline, IdealModelLine, şi OptimalGain pe axa Y.

Urmează descrierea GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png
.png

Generaţi date predictive pentru diagramele de creştere şi câştig

Când utilizaţi un flux de date pentru aplicarea unui model de clasificare pentru un set de date, Oracle Analytics vă permite să calculaţi statistici pe care le puteţi vizualiza în diagrame de creştere şi câştig.

Înainte de a începe, creaţi un model de clasificare care include probabilitatea predicţiei (de exemplu, un model cu mai mulţi clasificatori creat cu ajutorul scriptului de instruire Naive Bayes). Oracle Analytics afişează modelele disponibile în fila Modele din pagina Învăţare automată (din pagina home, faceţi clic pe Învăţare automată).
  1. Pe pagina home, faceţi clic pe Creare, apoi pe Flux de date.
  2. Selectaţi o sursă de date apoi faceţi clic pe Adăugare.
  3. Faceţi clic pe Adăugaţi un pas şi selectaţi Aplicare model.
  4. Din Selectare model, selectaţi un model de clasificare care include probabilitatea predicţiei, apoi faceţi clic pe OK.
  5. În Aplicare model, în secţiunea Parametri:
    • În Calculare creştere şi câştig, selectaţi Da.
    • În Coloană de destinaţie pentru calcularea creşterii, selectaţi numele coloanei pentru valorile ce sunt prognozate. De exemplu, dacă modelul prezice gradul în care clienţii se vor înregistra pentru un abonament utilizând o coloană denumită SIGNUP, selectaţi SIGNUP.
    • În Clasă pozitivă pentru calcul, specificaţi valoarea datelor ţinând cont de litere mari/mici reprezentând clasa pozitivă (sau rezultatul preferat) din predicţie. De exemplu, dacă modelul prezice gradul în care clienţii se vor înregistra pentru un abonament utilizând o coloană denumită SIGNUP cu valorile DA sau NU, selectaţi DA.
  6. Adăugaţi un nod Salvare date la fluxul dvs. de date.
  7. Executaţi fluxul acesta de date.
Fluxul de date produce un set de date denumit <Data flow name>_LIFT ce conţine statisticile de creştere şi câştig, pe care le puteţi evalua.

Evaluaţi un model de învăţare automată utilizând o diagramă de creştere şi câştig

Utilizaţi o diagramă pentru analizarea statisticilor generate de modelele de clasificare de învăţare automată pentru a determina cel mai bun model de utilizat.

Înainte de a începe, aplicaţi un model predictiv pentru datele dvs. şi generaţi statisticile de creştere şi câştig într-un set de date.
  1. În pagina home, faceţi clic pe Creare, apoi faceţi clic pe Registru de lucru.
  2. În Adăugare set de date, selectaţi setul de date <Data flow name>_LIFT pe care l-aţi generat în sarcina anterioară, apoi faceţi clic pe Adăugare la registrul de lucru.
  3. În panoul Vizualizare, selectaţi statisticile de analizat, apoi faceţi clic dreapta şi selectaţi Selectare vizualizare, şi alegeţi Diagramă cu linii.
    De exemplu, pentru analizarea câştigurilor, puteţi plasa PopulationPercentile pe axa X, şi plasaţi CumulativeGain, GainChartBaseline, IdealModelLine, şi OptimalGain pe axa Y.
    Pentru analizarea creşterii, puteţi plasa PopulationPercentile pe axa X, şi plasaţi LiftChartBaseline, şi LiftValue pe axa Y.