Ocenianie modeli uczenia maszynowego za pomocą wykresów wzrostu i zysku

Wykresy wzrostu (lift) i zysku (gain) umożliwiają porównywanie różnych modeli uczenia maszynowego w celu ustalenia najbardziej dokładnego modelu.

Korzystanie z wykresów wzrostu i zysku - omówienie

Wykresy wzrostu (lift) i zysku (gain) umożliwiają ocenę predykcyjnych modeli szkolenia maszynowego (ML), przedstawiając statystyki modeli w postaci wizualizacji w Oracle Analytics.

Jeśli w celu zastosowania modelu klasyfikacji do zbioru danych jest używany przepływ danych, Oracle Analytics umożliwia obliczenie wartości wzrostu i zysku. Dane te można zwizualizować na wykresie pomagającym ocenić dokładność modeli predykcyjnych i wybrać najlepszy do użycia.

Opis "GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png" znajduje się poniżej
.png"

Wymagania wstępne

  • Oracle Database lub Oracle Autonomous Data Warehouse.
  • Model klasyfikacji zawierający prawdopodobieństwo predykcji (na przykład model multiklasyfikatora utworzony za pomocą treningowego skryptu opartego na naiwnej metodzie Bayesa).

    Dostęp w Oracle Analytics do już istniejących modeli predykcyjnych uzyskuje się w obszarze "Uczenie maszynowe".

Statystyki generowane dla analizy wzrostu i zysku

Jeśli do zbioru danych zostanie zastosowany predykcyjny model klasyfikacji i zostaną wygenerowane statystyki wzrostu i zysku, to zostanie utworzony zbiór danych o nazwie <nazwa przepływu danych>_LIFT z następującymi kolumnami:
  • PopulationPercentile - Populacja zbioru danych podzielona na 100 równych grup.
  • CumulativeGain - Stosunek skumulowanej liczby pozytywnych celów do każdego centyla, do łącznej liczby pozytywnych celów. Im bardziej liczba skumulowanego zysku zbliża się do lewego górnego rogu wykresu, tym większy jest zysk: większa proporcja odpowiadających, do których dotarto, przy mniejszej proporcji klientów, z którymi się kontaktowano.
  • GainChartBaseline - Ogólny współczynnik odpowiedzi: linia reprezentuje procent pozytywnych rekordów, których się oczekuje, jeśli rekordy zostaną wybrane losowo. Na przykład, jeśli w kampanii marketingowej skontaktowano się losowo z X% klientów, uzyskuje się X% łącznych pozytywnych odpowiedzi.
  • LiftChartBaseline - Wartość 1 używana jako linia odniesienia dla porównaniu wzrostu.
  • LiftValue - Skumulowany wzrost dla danego centyla. Wzrost jest to stosunek skumulowanej gęstości pozytywnych rekordów dla wybranych danych do gęstości pozytywnych dla wszystkich danych testowych.
  • IdealModelLine - Stosunek skumulowanej liczby pozytywnych celów do łącznej liczby pozytywnych celów.
  • OptimalGain - Optymalna liczba klientów, z którymi należałoby się skontaktować. Po tym punkcie krzywa skumulowanego zysku będzie się spłaszczać.

Zbiór danych <nazwa przepływu danych>_LIFT można zwizualizować na wykresie Oracle Analytics. Na przykład, aby przeanalizować zysk, można przedstawić PopulationPercentile na osi X, a CumulativeGain, GainChartBaseline, IdealModelLine i OptimalGain na osi Y.

Opis "GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png" znajduje się poniżej
.png"

Generowanie danych predykcyjnych dla wykresów wzrostu i zysku

Jeśli w celu zastosowania modelu klasyfikacji do zbioru danych jest używany przepływ danych, Oracle Analytics umożliwia obliczenie statystyk, które można zwizualizować na wykresach wartości wzrostu i zysku.

Przed rozpoczęciem należy utworzyć model klasyfikacji zawierający prawdopodobieństwo predykcji (na przykład model multiklasyfikatora utworzony za pomocą treningowego skryptu opartego na naiwnej metodzie Bayesa). Oracle Analytics wyświetla dostępne modele na karcie "Modele" strony "Uczenie maszynowe" (na stronie startowej należy kliknąć Uczenie maszynowe).
  1. Na stronie startowej kliknąć Utwórz, po czym kliknąć Przepływ danych.
  2. Wybrać źródło danych, po czym kliknąć Dodaj.
  3. Kliknąć Dodaj etap, po czym wybrać Stosowanie modelu.
  4. W oknie dialogowym "Wybór modelu" wybrać model klasyfikacji zawierający prawdopodobieństwo predykcji, po czym kliknąć OK.
  5. W oknie "Zastosowanie modelu" w sekcji Parametry:
    • W obszarze Obliczanie wzrostu i zysku wybrać Tak.
    • W polu Docelowa kolumna do obliczania wzrostu wybrać nazwę kolumny prognozowanej wartości. Na przykład, jeśli model prognozuje, czy klienci, aby uzyskać członkostwo, będą się rejestrować i w tym celu używa kolumny SIGNUP, wybrać SIGNUP.
    • W polu Klasa pozytywnych do obliczania podać wartość danych z uwzględnieniem wielkości liter, reprezentującą klasę pozytywnych (lub preferowany wynik) w prognozie. Na przykład, jeśli model prognozuje, czy klienci, aby uzyskać członkostwo, będą się rejestrować i w tym celu używa kolumny SIGNUP z wartościami YES i NO, wybrać YES.
  6. Dodać do przepływu danych węzeł Zapisywanie danych.
  7. Uruchomić ten przepływ danych.
Przepływ danych utworzy zbiór danych o nazwie <nazwa przepływu danych>_LIFT zawierający statystyki wzrostu i zysku, które można oceniać.

Ocenianie modelu uczenia maszynowego za pomocą wykresu wzrostu i zysku

Za pomocą wykresu można przeanalizować statystyki wygenerowane przez modele klasyfikacji uczenia maszynowego w celu ustalenia modelu najlepszego do użycia.

Przed rozpoczęciem należy zastosować model predykcyjny do zbioru danych i wygenerować w zbiorze danych statystyki wzrostu i zysku.
  1. Na stronie startowej kliknąć kolejno Utwórz i Skoroszyt.
  2. W oknie dialogowym Dodaj zbiór danych wybrać zbiór danych <nazwa przepływu danych>_LIFT (wygenerowany w ramach poprzedniego zadania), po czym kliknąć Dodaj do skoroszytu.
  3. W panelu Wizualizacja wybrać statystyki do analizy, następnie kliknąć prawym przyciskiem myszy, po czym wybrać Wybór wizualizacji, a następnie Wykres liniowy.
    Na przykład, aby przeanalizować zysk, można umieścić PopulationPercentile na osi X, a CumulativeGain, GainChartBaseline, IdealModelLine i OptimalGain na osi Y.
    Aby przeanalizować wzrost, można umieścić PopulationPercentile na osi X, a LiftChartBaseline i LiftValue na osi Y.