Αξιολόγηση μοντέλων μηχανικής εκμάθησης με χρήση γραφημάτων βελτίωσης (lift) και κέρδους (gain)

Τα γραφήματα βελτίωσης (lift) και κέρδους (gain) σας παρέχουν τη δυνατότητα να συγκρίνετε διαφορετικά μοντέλα μηχανικής εκμάθησης για να προσδιορίσετε το μοντέλο με τη μεγαλύτερη ακρίβεια.

Επισκόπηση χρήσης γραφημάτων βελτίωσης (lift) και κέρδους (gain)

Τα γραφήματα βελτίωσης (lift) και κέρδους (gain) σας παρέχουν τη δυνατότητα να αξιολογείτε προγνωστικά μοντέλα μηχανικής εκμάθησης δημιουργώντας γραφήματα στατιστικών δεδομένων μοντελοποίησης σε απεικονίσεις στο Oracle Analytics.

Όταν χρησιμοποιείτε μια ροή δεδομένων για την εφαρμογή ενός μοντέλου ταξινόμησης σε ένα σύνολο δεδομένων, το Oracle Analytics σας επιτρέπει να υπολογίζετε τιμές βελτίωσης (lift) και κέρδους (gain). Στη συνέχεια, μπορείτε να απεικονίσετε αυτά τα δεδομένα σε ένα γράφημα για να αξιολογήσετε την ακρίβεια των προγνωστικών μοντέλων και να προσδιορίσετε αυτό που είναι καλύτερο για χρήση.

Ακολουθεί η περιγραφή για GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png
.png''

Προαπαιτούμενα

  • Oracle Database ή Oracle Autonomous Data Warehouse
  • Ένα μοντέλο ταξινόμησης που περιλαμβάνει πιθανότητα πρόβλεψης (π.χ. ένα μοντέλο πολλαπλής ταξινόμησης που έχει δημιουργηθεί με τη δέσμη ενεργειών εκμάθησης Naive Bayes).

    Έχετε πρόσβαση στα υπάρχοντα προγνωστικά μοντέλα στην περιοχή Μηχανική εκμάθηση στο Oracle Analytics.

Στατιστικά δεδομένα που παράγονται για ανάλυση βελτίωσης (lift) και κέρδους (gain)

Όταν εφαρμόζετε ένα προγνωστικό μοντέλο ταξινόμησης και παράγετε στατιστικά δεδομένα βελτίωσης (lift) και κέρδους (gain), δημιουργείται ένα σύνολο δεδομένων με όνομα <όνομα_ροής_δεδομένων>_LIFT που περιλαμβάνει αυτές τις στήλες:
  • PopulationPercentile - Ο πληθυσμός του συνόλου δεδομένων διαμοιρασμένος σε 100 ίσες ομάδες.
  • CumulativeGain - Η αναλογία του αθροιστικού αριθμού θετικών στόχων μέχρι το συγκεκριμένο εκατοστημόριο προς τον συνολικό αριθμό θετικών στόχων. Όσο πιο κοντά στην πάνω αριστερή γωνία του γραφήματος βρίσκεται η γραμμή αθροιστικού κέρδους, τόσο μεγαλύτερο είναι το κέρδος. Το υψηλότερο ποσοστό αποκρινόμενων που προσεγγίζονται για το χαμηλότερο ποσοστό πελατών με τους οποίους υπήρξε επικοινωνία.
  • GainChartBaseline - Το συνολικό ποσοστό απόκρισης. Η γραμμή αντιπροσωπεύει το ποσοστό των θετικών εγγραφών που αναμένουμε να λάβουμε αν επιλέγαμε τυχαία εγγραφές. Για παράδειγμα, σε μια καμπάνια μάρκετινγκ, αν επικοινωνούσαμε τυχαία με X% των πελατών, θα λαμβάναμε το X% της συνολικής θετικής απόκρισης.
  • LiftChartBaseline - Τιμή 1 και χρησιμοποιείται ως γραμμή βάσης για τη σύγκριση βελτίωσης (lift).
  • LiftValue - Η αθροιστική βελτίωση (lift) για ένα ποσοστημόριο. Η βελτίωση (lift) είναι η αναλογία της αθροιστικής πυκνότητας θετικών εγγραφών για τα επιλεγμένα δεδομένα προς τη θετική πυκνότητα για όλα τα δεδομένα δοκιμής.
  • IdealModelLine - Η αναλογία του αθροιστικού αριθμού θετικών στόχων προς τον συνολικό αριθμό θετικών στόχων.
  • OptimalGain - Δηλώνει τον βέλτιστο αριθμό πελατών με τους οποίους πρέπει να υπάρξει επικοινωνία. Η καμπύλη αθροιστικού κέρδους θα επιπεδοποιηθεί μετά από αυτό το σημείο.

Στη συνέχεια, μπορείτε να απεικονίσετε το σύνολο δεδομένων <όνομα_ροής_δεδομένων>_LIFT σε ένα γράφημα του Oracle Analytics. Για παράδειγμα, για την ανάλυση του κέρδους, μπορείτε να σχεδιάσετε ένα γράφημα με το μέγεθος PopulationPercentile στον άξονα X και τα μεγέθη CumulativeGain, GainChartBaseline, IdealModelLine και OptimalGain στον άξονα Y.

Ακολουθεί η περιγραφή για GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png
.png''

Παραγωγή προγνωστικών δεδομένων για γραφήματα βελτίωσης (lift) και κέρδους (gain)

Όταν χρησιμοποιείτε μια ροή δεδομένων για την εφαρμογή ενός μοντέλου ταξινόμησης σε ένα σύνολο δεδομένων, το Oracle Analytics σας επιτρέπει να υπολογίζετε στατιστικά στοιχεία τα οποία μπορείτε να απεικονίζετε σε γραφήματα βελτίωσης (lift) και κέρδους (gain).

Πριν ξεκινήσετε, δημιουργήστε ένα μοντέλο ταξινόμησης που περιλαμβάνει πιθανότητα πρόβλεψης (π.χ. ένα μοντέλο πολλαπλής ταξινόμησης που έχει δημιουργηθεί με τη δέσμη ενεργειών εκμάθησης Naive Bayes). Το Oracle Analytics εμφανίζει τα διαθέσιμα μοντέλα στην καρτέλα Μοντέλα στη σελίδα Μηχανική εκμάθηση (από την Αρχική σελίδα, κάντε κλικ στην επιλογή Μηχανική εκμάθηση).
  1. Στην Αρχική σελίδα, κάντε κλικ στην επιλογή Δημιουργία και κατόπιν στη Ροή δεδομένων.
  2. Επιλέξτε μια προέλευση δεδομένων και κάντε κλικ στην επιλογή Προσθήκη.
  3. Κάντε κλικ στην επιλογή Προσθήκη βήματος και επιλέξτε Εφαρμογή μοντέλου.
  4. Στο παράθυρο διαλόγου Επιλογή μοντέλου, επιλέξτε ένα μοντέλο ταξινόμησης με πιθανότητα πρόβλεψης και κάντε κλικ στο κουμπί OK.
  5. Στο παράθυρο διαλόγου Εφαρμογή μοντέλου, μεταβείτε στην ενότητα Παράμετροι:
    • Στο πεδίο Υπολογισμός βελτίωσης και κέρδους, επιλέξτε Ναι.
    • Στο πεδίο Στήλη προορισμού για υπολογισμό βελτίωσης, επιλέξτε το όνομα της στήλης για την προβλεπόμενη τιμή. Για παράδειγμα, αν το μοντέλο σας προβλέπει κατά πόσο οι πελάτες θα εγγραφούν για μια συνδρομή χρησιμοποιώντας μια στήλη με όνομα SIGNUP, επιλέξτε SIGNUP.
    • Στο πεδίο Θετική τάξη για υπολογισμό, ορίστε την τιμή δεδομένων (ισχύει διάκριση πεζών-κεφαλαίων) που αντιπροσωπεύει τη θετική τάξη (ή το προτιμώμενο αποτέλεσμα) στην πρόβλεψη. Για παράδειγμα, αν το μοντέλο σας προβλέπει κατά πόσο οι πελάτες θα εγγραφούν για μια συνδρομή χρησιμοποιώντας μια στήλη με όνομα SIGNUP και τιμές YES ή NO, ορίστε την τιμή YES.
  6. Προσθέστε έναν κόμβο Αποθήκευση δεδομένων στη ροή δεδομένων σας.
  7. Εκτελέστε αυτήν τη ροή δεδομένων.
Η ροή δεδομένων παράγει ένα σύνολο δεδομένων με όνομα <όνομα_ροής_δεδομένων>_LIFT που περιέχει τα στατιστικά δεδομένα βελτίωσης (lift) και κέρδους (gain) τα οποία μπορείτε να αξιολογήσετε.

Αξιολόγηση μοντέλου μηχανικής εκμάθησης με χρήση γραφημάτων βελτίωσης (lift) και κέρδους (gain)

Χρησιμοποιήστε ένα γράφημα για να αναλύσετε τα στατιστικά στοιχεία που παράγονται από τα μοντέλα ταξινόμησης μηχανικής εκμάθησης, προκειμένου να προσδιορίσετε ποιο είναι το καλύτερο μοντέλο για χρήση.

Πριν ξεκινήσετε, εφαρμόστε ένα προγνωστικό μοντέλο στα δεδομένα σας για την παραγωγή στατιστικών δεδομένων βελτίωσης (lift) και κέρδους (gain) σε ένα σύνολο δεδομένων.
  1. Στην Αρχική σελίδα, κάντε κλικ στην επιλογή Δημιουργία και κατόπιν στην επιλογή Βιβλίο εργασίας.
  2. Στο πλαίσιο Προσθήκη συνόλου δεδομένων, επιλέξτε το σύνολο δεδομένων <όνομα_ροής_δεδομένων>_LIFT, που δημιουργήθηκε κατά την προηγούμενη εργασία, και κάντε κλικ στην επιλογή Προσθήκη στο βιβλίο εργασίας.
  3. Στο πλαίσιο Απεικόνιση, επιλέξτε τα στατιστικά στοιχεία για ανάλυση, κάντε δεξί κλικ και επιλέξτε Επιλογή απεικόνισης, και επιλέξτε Γράφημα γραμμών.
    Για παράδειγμα, για να αναλύσετε το κέρδος (gain), μπορείτε να τοποθετήσετε το μέγεθος PopulationPercentile στον άξονα X και τα μεγέθη CumulativeGain, GainChartBaseline, IdealModelLine και OptimalGain στον άξονα Υ.
    Για να αναλύσετε τη βελτίωση (lift), μπορείτε να τοποθετήσετε το μέγεθος PopulationPercentile στον άξονα X και τα μεγέθη LiftChartBaseline και LiftValue στον άξονα Y.