Tworzenie i używanie modeli predykcyjnych Oracle Analytics

Modele predykcyjne Oracle Analytics używają kilku wbudowanych algorytmów Oracle Machine Learning w celu eksplorowania zbiorów danych, prognozowania wartości docelowych lub identyfikowania klas rekordów. Modele predykcyjne tworzy się, trenuje i stosuje do danych za pomocą edytora przepływu danych.

Co to są modele predykcyjne Oracle Analytics?

Predykcyjny model Oracle Analytics stosuje określony algorytm do zbioru danych w celu prognozowania wartości i klas lub zidentyfikowania grup występujących w danych.

Do prognozowania danych można także używać modeli Oracle Machine Learning.

Oracle Analytics udostępnia algorytmy pomagające szkolić modele predykcyjne do różnych zastosowań. Na przykład algorytmy obejmują drzewa klasyfikacji i regresji CART (Classification and Regression Trees), regresję logistyczną i centroidy.

Najpierw, do przeszkolenia modelu na szkoleniowym zbiorze danych, jest używany edytor przepływu danych. Po wyszkoleniu modelu predykcyjnego można go zastosować do zbiorów danych, dla których ma być generowana prognoza.

Wyszkolony model można udostępnić innym użytkownikom, tak aby mogli stosować go do swoich danych w celu prognozowania. W niektórych sytuacjach określeni użytkownicy szkolą modele, a inni je stosują.

Uwaga:

Nie mając pewności, czego szukać w swoich danych, można zacząć od użycia funkcji wyjaśniania, używającej mechanizmów uczenia maszynowego do identyfikacji trendów i wzorców. Następnie można za pomocą edytora przepływu danych utworzyć i wyszkolić modele predykcyjne, zagłębiające się w trendy i wzorce wykryte przez funkcję wyjaśniania.
Do przeszkolenia modelu jest używany edytor przepływu danych:
  • Najpierw należy utworzyć przepływ danych i dodać zbiór danych, który ma być używany do szkolenia modelu. Ten szkoleniowy zbiór danych zawiera dane, które mają być prognozowane (na przykład wartość, taką jak wielkość sprzedaży lub wiek, albo zmienną, taką jak przedział ryzyka kredytowego).
  • Jeśli trzeba, można - używając edytora przepływu danych - edytować zbiór danych (dodać kolumny, wybrać kolumny, zmodyfikować złączenia itp.).
  • Po stwierdzeniu, że dane są właściwymi do szkolenia modelu, należy dodać do przepływu danych etap szkolenia i wybrać algorytm klasyfikacji (dwójkowej lub wieloklasowej), regresji lub klasterowania. Następnie należy nadać nazwę uzyskanemu modelowi, zapisać przepływ danych i uruchomić go, aby wyszkolić i utworzyć model.
  • Na koniec należy, aby ustalić jakość modelu, zbadać właściwości obiektów uczenia maszynowego. Jeśli trzeba, można iteracyjnie powtarzać proces szkolenia, aż zostanie osiągnięta żądana jakość.

Gotowego modelu można użyć do oceny nieznanych lub niemających etykiety danych w celu wygenerowania zbioru danych (w ramach przepływu danych) albo dodania wizualizacji predykcji do skoroszytu.

Przykład

Załóżmy, że chcemy utworzyć i wyszkolić model klasyfikacji wieloklasowej, aby przewidzieć, dla których pacjentów istnieje duże ryzyko wystąpienia choroby serca.

  1. Udostępnić szkoleniowy zbiór danych zawierający atrybuty poszczególnych pacjentów (takie jak wiek, płeć czy doświadczany ból w klatce piersiowej) oraz miary (takie jak ciśnienie krwi, poziom cukru w krwi, poziom cholesterolu i maksymalne tętno). Szkoleniowy zbiór danych zawiera także kolumnę "Prawdopodobieństwo", w której jest przypisywana jedna z następujących wartości: nie występuje, mało prawdopodobne, prawdopodobne, wysoce prawdopodobne lub występuje.
  2. Wybrać algorytm CART (drzewo decyzyjne), ponieważ pomija on kolumny nadmiarowe, które nie przyczyniają się do prognozy, oraz identyfikuje kolumny (i ich używa) pomocne do prognozowania celu. Dodając algorytm do przepływu danych, należy do szkolenia modelu wybrać kolumnę "Prawdopodobieństwo". Algorytm, używając mechanizmów uczenia maszynowego, wybiera kolumny czynników potrzebne do dokonania prognozy i wyprowadzenia wynikowych prognoz oraz powiązanych zbiorów danych.
  3. Zbadać uzyskane wyniki i dostroić model, a następnie zastosować go do większego zbioru danych, aby przewidzieć, dla których pacjentów istnieje duże ryzyko wystąpienia choroby serca.

Jak wybrać algorytm modelu predykcyjnego?

Oracle Analytics udostępnia algorytmy do modelowania uczenia maszynowego, obejmujące predykcję liczbową, klasyfikację wieloklasową, klasyfikację dwójkową i klastrowanie.

Udostępniane przez Oracle funkcje uczenia maszynowego są przeznaczone dla zaawansowanych analityków danych, którzy wiedzą, czego szukają w danych, znają się na analizach predykcyjnych oraz rozumieją różnice między poszczególnymi algorytmami.

Uwaga:

Jeśli są używane dane pochodzące z Oracle Autonomous Data Warehouse, to do wytrenowania modelu predykcyjnego można używać funkcji AutoML, co nie wymaga umiejętności w zakresie uczenia maszynowego. Zob. Trenowanie modelu predykcyjnego przy użyciu funkcji AutoML z Oracle Autonomous Data Warehouse.

Zwykli użytkownicy zazwyczaj tworzą kilka modeli predykcji, porównują je i wybierają ten, który najprawdopodobniej da wyniki spełniające określone kryteria i wymagania. Kryteria te mogą się zmieniać. Na przykład niekiedy użytkownicy wybierają modele zapewniające lepszą dokładność ogólną, kiedy indziej wybierają modele cechujące się najmniejszą liczbą błędów typu I (wyniki fałszywie pozytywne) i typu II (wyniki fałszywie negatywne), a jeszcze inni wybierają modele zwracające wyniki szybciej z określonym poziomem dokładności, nawet jeśli te wyniki nie są idealne.

Oracle Analytics udostępnia wiele algorytmów uczenia maszynowego dla poszczególnych rodzajów predykcji lub klasyfikacji. Użytkownik, korzystając z tych algorytmów, może utworzyć więcej niż jeden model oraz używać różnych dostrajanych parametrów i różnych szkoleniowych zbiorów danych, aby na koniec wybrać najlepszy model. Użytkownik może wybrać najlepszy model, porównując i oceniając modele w odniesieniu do swoich własnych kryteriów. Aby ustalić najlepszy model, może zastosować model i zwizualizować wyniki obliczeń w celu sprawdzenia dokładności albo otworzyć i eksplorować powiązane zbiory danych które były używane przez Oracle Analytics do modelowania wyników.

Więcej informacji o udostępnianych algorytmach można znaleźć w poniższej tabeli:

Nazwa Typ Kategoria Funkcja Opis
CART

Klasyfikacja

Regresja

Klasyfikator dwójkowy

Klasyfikator wieloklasowy

Liczbowe

- Używa drzew decyzyjnych do prognozowania wartości zarówno dyskretnych, jak i ciągłych.

Do użycia z dużymi zbiorami danych.

Regresja liniowa Elastic Net Regresja Liczbowe ElasticNet Zaawansowany model regresji. Dostarcza dodatkowe informacje (regularyzacja), dokonuje wyboru zmiennych oraz przeprowadza kombinacje liniowe. Kary wynikające z metod regresji Lasso i Ridge (grzbietowej).

Powinno się używać z dużą liczbą atrybutów, aby uniknąć współliniowości (kiedy wiele atrybutów wykazuje doskonała korelację) i nadmiernego dopasowania (przeuczenia).

Hierarchiczne Klastrowanie Klastrowanie Klastrowanie aglomeracyjne (AgglomerativeClustering) Tworzy hierarchię klasterów w sposób oddolny (każda obserwacja stanowi swój własny klaster) lub odgórny (wszystkie obserwacje zaczynają się jako jeden klaster), używając miar odległości.

Powinno się używać, gdy zbiór danych nie jest duży, a liczba klasterów nie jest z góry znana.

Algorytm centroidów Klastrowanie Klastrowanie Algorytm centroidów Dzieli rekordy iteracyjnie na k klasterów, w których każda obserwacja należy do klastera z najbliższą średnią.

Powinno się używać do klasterowania kolumn miar z określonym oczekiwaniem liczby potrzebnych klasterów. Działa dobrze z dużymi zbiorami danych. Wyniki są różne dla poszczególnych przebiegów.

Regresja liniowa Regresja Liczbowe Metoda najmniejszych kwadratów (OLS)

Grzbietowa (Ridge)

Lasso

Liniowe podejście do modelowania relacji między zmienną docelową a innymi atrybutami ze zbioru danych.

Służy do prognozowania wartości liczbowych, gdy atrybuty nie są idealnie skorelowane.

Regresja logistyczna Regresja Klasyfikator dwójkowy LogisticRegressionCV Służy do prognozowania wartości zmiennej zależnej kategoryzacyjnej. Zmienną zależną jest zmienna dwójkowa zawierająca dane zakodowane jako 1 lub 0.
Naive Bayes Klasyfikacja

Klasyfikator dwójkowy

Klasyfikator wieloklasowy

GaussianNB Klasyfikacja probabilistyczna oparta na twierdzeniu Bayesa, zakładająca brak zależności między cechami.

Powinno się używać przy dużej liczbie wymiarów wejściowych.

Sieć neuronowa Klasyfikacja

Klasyfikator dwójkowy

Klasyfikator wieloklasowy

Klasyfikator MLP (MLPClassifier) Iteracyjny algorytm klasyfikacji, uczący się przez porównanie swojego wyniku klasyfikacji z wartością faktyczną i zwracający go do sieci w celu zmodyfikowania algorytmu dla dalszych iteracji.

Służy do analiz tekstów.

Las losowy Klasyfikacja

Klasyfikator dwójkowy

Klasyfikator wieloklasowy

Liczbowe

- Metoda szkolenia zespołowego, konstruująca kilka drzew decyzyjnych i wyprowadzająca wartość reprezentującą zbiorczo wszystkie drzewa decyzyjne.

Służy do prognozowania zmiennych liczbowych i kategoryzacyjnych.

SVM Klasyfikacja

Klasyfikator dwójkowy

Klasyfikator wieloklasowy

LinearSVC, SVC Klasyfikuje rekordy, mapując je w przestrzeni i konstruując hiperpłaszczyzny, które mogą być używane do klasyfikacji. Nowe rekordy (dane oceny) są mapowane w przestrzeni i są prognozowane jako należące do kategorii opartej na brzegu hiperpłaszczyzny, do której należą.

Trenowanie modelu predykcyjnego przy użyciu funkcji AutoML z Oracle Autonomous Data Warehouse

Gdy są używane dane z Oracle Autonomous Data Warehouse, można używać dostępnej w tym produkcie funkcji AutoML do zalecenia i wytrenowania modelu predykcyjnego. AutoML analizuje dane, ustala najlepszy do użycia algorytm oraz rejestruje model predykcyjny w Oracle Analytics, tak aby można było tworzyć prognozy na podstawie swoich danych.

Gdy jest używana funkcja AutoML, Oracle Autonomous Data Warehouse wykonuje za użytkowników całą żmudną pracę, dzięki czemu mogą wdrożyć model predykcyjny bez wymaganych umiejętności z dziedziny uczenia maszynowego lub sztucznej inteligencji. Wygenerowany model predykcyjny jest zapisywany w obszarze "Modele" na stronie "Uczenie maszynowe". Aby można było prognozować dane, korzystając z nowego modelu, należy utworzyć przepływ danych i użyć etapu Zastosowanie modelu.
Przed rozpoczęciem:
  • Utworzyć zbiór danych oparty na tych danych z Oracle Autonomous Data Warehouse, dla których mają być dokonywane prognozy. Na przykład mogą być dostępne dane dotyczące odchodzenia pracowników, zawierające pole o nazwie ATTRITION, w którym odejście jest sygnalizowane wartością "Yes" lub "No".
  • Upewnić się, że użytkownik, określony w połączeniu Oracle Analytics z Oracle Autonomous Data Warehouse, ma przypisaną rolę OML_Developer i nie jest superużytkownikiem "admin". W przeciwnym razie przepływ danych zakończy się niepowodzeniem, gdy zostanie podjęta próba zapisania go lub uruchomienia.
  1. Na stronie startowej kliknąć Utwórz, po czym kliknąć Przepływ danych.
  2. W obszarze "Dodaj zbiór danych" wybrać zbiór danych oparty na hurtowni Oracle Autonomous Data Warehouse zawierającej dane, które będą analizowane.
  3. Kliknąć Dodaj etap, po czym kliknąć AutoML.
  4. W polu Cel kliknąć napis Proszę wybrać kolumnę, po czym wybrać kolumnę zawierającą wartość, która będzie prognozowana.
    Na przykład, aby prognozować odchodzenie pracowników, można wybrać pole o nazwie ATTRITION, w którym wartość TRUE lub FALSE sygnalizuje, czy pracownik odszedł czy nie odszedł z organizacji.

  5. Zaakceptować sugerowane przez Oracle Analytics ustawienia Typ zadania i Miara klasyfikacji modelu lub wybrać inny algorytm.
  6. Kliknąć Zapisz model, po czym określić nazwę generowanego modelu predykcyjnego.
  7. Kliknąć Zapisz, po czym określić nazwę przepływu danych.
  8. Kliknąć Uruchom, aby uruchomić analizę danych i wygenerować model predykcyjny.
  9. Na stronie startowej kliknąć Nawigacja, następnie kliknąć Uczenie maszynowe, po czym kliknąć prawym przyciskiem myszy wygenerowany i wybrać opcję Zbadaj.
Model wygenerowany przez Oracle Analytics można znaleźć na stronie Uczenie maszynowe na karcie Modele. Aby ocenić jakość modelu, należy go zbadać. Zob. Ocenianie jakości modelu predykcyjnego. Można również odwoływać się do powiązanych zbiorów danych, które są generowane dla modeli wygenerowanych przez funkcję AutoML. Zob. Co to są powiązane zbiory danych dla modelu predykcyjnego?.

Tworzenie i szkolenie modelu predykcyjnego

Zaawansowani analitycy danych mogą tworzyć i trenować modele predykcyjne, których będzie można używać do wdrażania algorytmów Oracle Machine Learning w celu eksplorowania zbiorów danych, przewidywania wartości docelowej albo identyfikowania klas rekordów. Za pomocą edytora przepływu danych można tworzyć i trenować modele predykcyjne oraz stosować je do swoich danych.

Ikona samouczka LiveLabs - Sprint

Uzyskanie dokładnego modelu jest procesem iteracyjnym - zaawansowany analityk danych może próbować różne modele, porównywać ich wyniki oraz na ich podstawie dostrajać parametry. Finalny, dokładny model predykcyjny może być używany przez analityka danych do prognozowania trendów w innych zbiorach danych, a także może zostać dodany do skoroszytów.

Uwaga:

Jeśli są używane dane pochodzące z Oracle Autonomous Data Warehouse, to do wytrenowania modelu predykcyjnego można używać funkcji AutoML, co nie wymaga umiejętności w zakresie uczenia maszynowego. Zob. Trenowanie modelu predykcyjnego przy użyciu funkcji AutoML z Oracle Autonomous Data Warehouse.

Oracle Analytics udostępnia algorytmy predykcji liczbowej, klasyfikacji wieloklasowej, klasyfikacji dwójkowej i klasterowania.

  1. Na stronie startowej kliknąć na opcji Utwórz, po czym wybrać opcję Przepływ danych.
  2. Wybrać zbiór danych, który ma być używany do szkolenia modelu. Kliknąć przycisk Dodaj.
  3. W edytorze przepływu danych kliknąć na węźle Dodaj etap (+).
    Po dodaniu zbioru danych można - do utworzenia modelu - użyć wszystkich zawartych w nim kolumn albo wybrać tylko istotne. Odpowiedni wybór istotnych kolumn wymaga rozumienia zbioru danych. Powinno się pomijać kolumny, o których wiadomo, że nie mają wpływu na wyniki albo że zawierają nadmiarowe informacje. Istotne kolumny można wybierać, dodając etap Wybór kolumn. Nie mając pewności, które kolumny są istotne, należy użyć wszystkich kolumn.
  4. Wybrać jeden z etapów szkolenia modelu (na przykład Szkolenie predykcji liczbowej lub Szkolenie klastrowania).
  5. Wybrać algorytm, po czym nacisnąć przycisk OK.
  6. Pracując z modelem nadzorowanym, takim jak predykcja lub klasyfikacja, wybrać opcję Cel, a następnie prognozowaną kolumnę. Na przykład, jeśli jest tworzony model prognozujący dochód osoby, wybrać kolumnę "Dochód".
    Pracując z modelem nienadzorowanym, takim jak klastrowanie, nie trzeba wybierać prognozowanej kolumny.
  7. Zmienić ustawienia domyślne modelu, aby go dostroić i poprawić dokładność prognozowanych wyników. Ustawienia zależą od konkretnego modelu.
  8. Kliknąć na etapie Zapisywanie modelu, po czym podać nazwę i opis.
  9. Kliknąć przycisk Zapisz, podać nazwę i opis przepływu danych, po czym - aby go zapisać - nacisnąć przycisk OK.
  10. Kliknąć przycisk Uruchom przepływ danych, aby utworzyć model predykcyjny bazujący na wejściowym zbiorze danych i określonych ustawieniach modelu.

Etapy przepływu danych dotyczące szkolenia modeli uczenia maszynowego

Oracle Analytics umożliwia szkolenie, za pomocą etapów w przepływach danych, modeli uczenia maszynowego. Wyszkolony model uczenia maszynowego można zastosować do danych, używając etapu Stosowanie modelu.

Nazwa etapu Opis
AutoML (wymaga produktu Oracle Autonomous Data Warehouse) Funkcji AutoML z Oracle Autonomous Data Warehouse można używać do zalecenia i wytrenowania modelu predykcyjnego. AutoML analizuje dane, ustala najlepszy do użycia algorytm oraz rejestruje model predykcyjny w Oracle Analytics, tak aby można było tworzyć prognozy na podstawie swoich danych.
Szkolenie klasyfikatora dwójkowego

Wyszkolenie modelu uczenia maszynowego do klasyfikowania danych do jednej z dwóch predefiniowanych kategorii.

Szkolenie klastrowania Wyszkolenie modelu uczenia maszynowego do segregacji grup o podobnych cechach i przypisania ich do klasterów.
Szkolenie multiklasyfikatora Wyszkolenie modelu uczenia maszynowego do klasyfikowania danych do trzech lub większej liczby predefiniowanych kategorii.
Szkolenie predykcji liczbowej Wyszkolenie modelu uczenia maszynowego do predykcji wartości liczbowej na podstawie znanych wartości danych.

Badanie modelu predykcyjnego

Po utworzeniu modelu predykcyjnego i uruchomieniu przepływu danych można sprawdzić informacje dotyczącego modelu w celu ustalenia jego dokładności. Korzystając z tych informacji, można iteracyjnie dostosowywać ustawienia modelu, tak aby zwiększyć jego dokładność i uzyskiwać lepsze wyniki.

Wyświetlanie szczegółów modelu predykcyjnego

Szczegółowe informacje o modelu predykcyjnym pomagają zrozumieć model i ustalić, czy jest on odpowiedni do predykcji naszych danych. Szczegóły modelu obejmują jego klasę, algorytm oraz kolumny wejściowe i wyjściowe.

  1. Na stronie startowej kliknąć Nawigator, a następnie Uczenie maszynowe.
  2. Kliknąć na ikonie menu modelu ze szkoleniem, po czym wybrać opcję Zbadaj.
  3. Wybrać Szczegóły, aby wyświetlić informacje o modelu.

Ocenianie jakości modelu predykcyjnego

Można wyświetlić informacje pomagające zrozumieć jakość modelu predykcyjnego. Na przykład można przejrzeć miary dokładności, takie jak dokładność modelu, precyzja, czułość, wartość F1 i współczynnik fałszywie pozytywnych.

Oracle Analytics dostarcza podobne miary bez względu na algorytm użyty do utworzenia modelu, ułatwiając w ten sposób porównywanie różnych modeli. W procesie tworzenia modelu dane wejściowe są dzielone (na podstawie parametru Train Partition Percent [Procent części szkoleniowej]) na dwie części używane do szkolenia i testowania modelu. Model używa części testowej zbioru danych do sprawdzania swojej dokładności.
Korzystając z informacji z karty Jakość, można dostosować parametry modelu i ponownie go przeszkolić.
  1. Na stronie startowej kliknąć Nawigator, a następnie Uczenie maszynowe.
  2. Kliknąć na ikonie menu modelu ze szkoleniem, po czym wybrać opcję Zbadaj.
  3. Kliknąć kartę Jakość, aby przejrzeć miary jakości modelu i dokonać jego oceny. Można na przykład sprawdzić wynik Dokładność modelu.

Wskazówka: kliknięcie pozycji Więcej umożliwia przejrzenie szczegółów widoków wygenerowanych dla modelu.

Co to są powiązane zbiory danych dla modelu predykcyjnego?

Gdy zostanie uruchomiony przepływ danych w celu utworzenia predykcyjnego modelu Oracle Analytics ze szkoleniem, Oracle Analytics utworzy zestaw powiązanych zbiorów danych. Chcąc poznać dokładność modelu, można otwierać i tworzyć skoroszyty oparte na tych zbiorach danych.

W zależności od algorytmu, wybranego dla modelu, powiązane zbiory danych zawierają szczegóły modelu, takie jak reguły predykcji, miary dokładności, macierz błędów czy kluczowe czynniki predykcji. Informacji tych można użyć do dostrojenia modelu w celu uzyskania lepszych wyników, a powiązane zbiory danych mogą być używane do porównywania modeli i ustalania, który z nich jest bardziej dokładny.

Na przykład można otworzyć zbiór danych "Czynniki" (Drivers), aby stwierdzić, które kolumny mają silny pozytywny lub negatywny wpływ na model. Badając te kolumny, można ustalić, że niektóre kolumny nie są traktowane jako zmienne modelu, ponieważ nie są realistycznymi danymi wejściowymi albo są zbyt szczegółowe dla prognozy. Można otworzyć model w edytorze przepływu danych, a następnie - bazując na poznanych informacjach - usunąć zbędne lub zbyt szczegółowe kolumny, po czym ponownie wygenerować model. Przeglądając karty "Jakość" i "Wyniki", można sprawdzić, czy dokładność modelu się poprawiła. Proces ten należy kontynuować, aż zostanie uzyskana satysfakcjonująca dokładność modelu i będzie on gotów do oceny nowego zbioru danych.

Podobne powiązane zbiory danych są generowane przy użyciu różnych algorytmów. Nazwy parametrów i kolumn mogą się zmieniać w zbiorze danych w zależności od typu algorytmu, lecz funkcjonalność zbioru danych pozostaje niezmieniona. Na przykład nazwy kolumn w zbiorze danych "Statystyka" mogą się zmienić z "Regresja liniowa" na "Regresja logistyczna", lecz nadal ten zbiór danych będzie zawierał miary dokładności modelu.

Powiązane zbiory danych dla modeli AutoML

Podczas trenowania modelu predykcyjnego przy użyciu funkcji AutoML Oracle Analytics tworzy dodatkowe zbiory danych zawierające przydatne informacje dotyczące modelu. Liczba tworzonych zbiorów danych zależy od algorytmu modelu. Na przykład w przypadku naiwnych modeli Bayesa Oracle Analytics tworzy zbiór danych zawierający informacje o prawdopodobieństwach warunkowych. W przypadku modelu drzewa decyzyjnego zbiór danych zawiera informacje o statystykach drzewa decyzyjnego. Podczas badania modelu wygenerowanego przez funkcję AutoML za pomocą algorytmu uogólnionego modelu liniowego (GLM, Generalized Linear Model) są widoczne wpisy oznaczone prefiksem GLM* dla zbiorów danych specyficznych dla modelu, które zawierają informacje o metadanych dotyczące modelu.
Opis "GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png" znajduje się poniżej
.png"

Powiązane zbiory danych

Uwaga:

Oracle Analytics dołącza nazwę wyników przepływu danych do powiązanego typu zbioru danych. Na przykład w przypadku modelu CART, jeśli wyniki przepływu danych mają nazwę "cart_model2", to zbiór danych jest nazywany "cart_model2_CART".

CART

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "CART" (Classification and Regression Tree), który zawiera kolumny przedstawiające warunki i kryteria warunków z drzewa decyzyjnego, predykcję dla każdej z grup i poziom ufności predykcji. Aby zwizualizować to drzewo decyzyjne, należy użyć wizualizacji "Diagram drzewiasty".

Zbiór danych "CART" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytm
Liczbowe CART dla predykcji liczbowej
Klasyfikacja dwójkowa CART
Klasyfikacja wieloklasowa CART

Raport klasyfikacji

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Raport klasyfikacji". Na przykład jeśli kolumna docelowa może zawierać dwie wartości dystynktywne "Tak" i "Nie", ten zbiór danych pokazuje miary dokładności, takie jak "F1", "Precyzja", "Czułość" i "Obsługa" (liczba wierszy w szkoleniowym zbiorze danych z tą wartością) dla każdej wartości dystynktywnej kolumny docelowej.

Zbiór danych "Klasyfikacja" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytmy
Klasyfikacja dwójkowa

Naive Bayes

Sieć neuronowa

Maszyna wektorów nośnych

Klasyfikacja wieloklasowa

Naive Bayes

Sieć neuronowa

Maszyna wektorów nośnych

Macierz błędów

Oracle Analytics tworzy tabelę przestawną dla powiązanego zbioru danych "Macierz błędów". Każdy wiersz reprezentuje wystąpienie prognozowanej klasy, a każda kolumna reprezentuje wystąpienie w faktycznej klasie. Tabela ta zawiera informacje o liczbie fałszywie pozytywnych, fałszywie negatywnych, rzeczywiście pozytywnych i rzeczywiście negatywnych, które są używane do obliczania miar dokładności "Precyzja", "Czułość" i "F1".

Zbiór danych "Macierz błędów" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytmy
Klasyfikacja dwójkowa

Regresja logistyczna

CART (drzewo decyzyjne)

Naive Bayes

Sieć neuronowa

Las losowy

Maszyna wektorów nośnych

Klasyfikacja wieloklasowa

CART (drzewo decyzyjne)

Naive Bayes

Sieć neuronowa

Las losowy

Maszyna wektorów nośnych

Czynniki

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Czynniki", który zawiera informacje o kolumnach określających wartości kolumn docelowych. Do identyfikacji tych kolumn jest używana regresja liniowa. Każdej kolumnie są przypisywane wartości współczynnika i korelacji. Wartość współczynnika opisuje wagę kolumny używaną do ustalenia wartości kolumny docelowej. Wartość korelacji sygnalizuje kierunek relacji między kolumną docelową a kolumną zależności. Na przykład, czy wartość kolumny docelowej zwiększa się lub zmniejsza w zależności od kolumny zależności.

Zbiór danych "Czynniki" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytmy
Liczbowe

Regresja liniowa

Regresja liniowa Elastic Net

Klasyfikacja dwójkowa

Regresja logistyczna

Maszyna wektorów nośnych

Klasyfikacja wieloklasowa Maszyna wektorów nośnych

Mapa trafień

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Mapa trafień", która zawiera informacje o węzłach-liściach drzewa decyzyjnego. Każdy wiersz w tabeli reprezentuje węzeł-liść i zawiera informacje opisujące, co przedstawia węzeł-liść, takie jak rozmiar segmentu, ufność i oczekiwana liczba wierszy. Na przykład oczekiwana liczba poprawnych prognoz = Rozmiar segmentu * Ufność.

Zbiór danych "Mapa trafień" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytm
Liczbowe CART dla predykcji liczbowej

Wartości rezydualne

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Wartości rezydualne", który zawiera informacje o jakości predykcji wartości rezydualnych. Wartość rezydualna jest to różnica między wartością mierzoną a prognozowaną przez model regresji. Ten zbiór danych zawiera wartość agregowanej sumy bezwzględnej różnicy między wartościami faktycznymi a prognozowanymi dla wszystkich kolumn w zbiorze danych.

Zbiór danych "Wartości rezydualne" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytmy
Liczbowe

Regresja liniowa

Regresja liniowa Elastic Net

CART dla predykcji liczbowej

Klasyfikacja dwójkowa CART (drzewo decyzyjne)
Klasyfikacja wieloklasowa CART (drzewo decyzyjne)

Statystyki

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Statystyki". Miary z tego zbioru danych zależą od algorytmu użytego do wygenerowania tych miar. Miary zależne od algorytmu:

  • Regresja liniowa, CART dla predykcji liczbowej, regresja liniowa Elastic Net - te algorytmy obejmują: R-kwadrat, skorygowane R-kwadrat, średni błąd bezwzględny (MAE), błąd średniokwadratowy (MSE), średni błąd względny (RAE), błąd względny kwadratowy (RSE), pierwiastek błędu średniokwadratowego (RMSE).
  • CART (Classification And Regression Trees), klasyfikacja Naive Bayes, sieć neuronowa, maszyna wektorów nośnych (SVM), las losowy, regresja logistyczna - te algorytmy obejmują: dokładność, F1 łącznie.

Ten zbiór danych jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytm
Liczbowe

Regresja liniowa

Regresja liniowa Elastic Net

CART dla predykcji liczbowej

Klasyfikacja dwójkowa

Regresja logistyczna

CART (drzewo decyzyjne)

Naive Bayes

Sieć neuronowa

Las losowy

Maszyna wektorów nośnych

Klasyfikacja wieloklasowa

Naive Bayes

Sieć neuronowa

Las losowy

Maszyna wektorów nośnych

Podsumowanie

Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Podsumowanie", który zawiera informacje takie jak nazwa celu i nazwa modelu.

Zbiór danych "Podsumowanie" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.

Model Algorytmy
Klasyfikacja dwójkowa

Naive Bayes

Sieć neuronowa

Maszyna wektorów nośnych

Klasyfikacja wieloklasowa

Naive Bayes

Sieć neuronowa

Maszyna wektorów nośnych

Odnajdywanie powiązanych zbiorów danych dla modelu predykcyjnego

Powiązane zbiory danych są generowane podczas szkolenia modelu predykcyjnego.

W zależności od algorytmu zbiory te zawierają szczegóły modelu, takie jak reguły predykcji, miary dokładności, macierz błędów czy kluczowe czynniki predykcji. Parametry te pomagają zrozumieć reguły używane przez model w celu ustalenia przewidywań i klasyfikacji.
  1. Na stronie startowej kliknąć Nawigator, a następnie Uczenie maszynowe.
  2. Kliknąć na ikonie menu modelu ze szkoleniem, po czym wybrać opcję Zbadaj.
  3. Kliknąć na karcie Powiązane, aby uzyskać dostęp do powiązanych zbiorów danych modelu.
  4. Kliknąć dwukrotnie na powiązanym zbiorze danych, aby wyświetlić go lub użyć w skoroszycie.

Dodawanie modelu predykcyjnego do skoroszytu

Tworząc w skoroszycie scenariusz, do zbioru danych skoroszytu stosuje się model predykcyjny w celu odkrycia trendów i wzorców, do których wykrywania model został zaprojektowany.

Uwaga:

Do danych ze skoroszytu nie można zastosować modelu Oracle Machine Learning.
Po dodaniu modelu do skoroszytu i zmapowaniu danych wejściowych modelu na kolumny zbioru danych, w okienku "Dane" pojawią się obiekty modelu, które można przeciągać i upuszczać na kanwę. Mechanizmy uczenia maszynowego wygenerują wartości modelu na podstawie odpowiednich kolumn danych z wizualizacji.
  1. Na stronie startowej kliknąć kolejno Utwórz i Skoroszyt.
  2. Wybrać zbiór danych, który ma zostać użyty do utworzenia skoroszytu, po czym kliknąć Dodaj do skoroszytu.
  3. W okienku "Dane" kliknąć na ikonie Dodaj, po czym wybrać opcję Utwórz scenariusz.
  4. W oknie dialogowym "Tworzenie scenariusza - Wybór modelu" wybrać model, po czym nacisnąć przycisk OK.
    Można zastosować tylko model predykcyjny. Nie można zastosować modelu Oracle Machine Learning.
    Jeśli którekolwiek z danych wejściowych modelu nie będą mogły zostać dopasowane do elementu danych, zostanie wyświetlone okno dialogowe "Mapowanie danych na model".
  5. Jeśli pojawi się okno dialogowe "Mapowanie danych na model", wybrać w polu Zbiór danych zbiór danych do użycia z modelem.
  6. Uzgodnić dane wejściowe modelu i elementy danych. Kliknąć przycisk Gotowe.
    Scenariusz zostanie wyświetlony w okienku "Elementy danych" jako zbiór danych.
  7. Poprzeciągać elementy ze zbioru danych i modelu do kanwy "Wizualizacja".
  8. Aby dostosować scenariusz, w okienku "Elementy danych" kliknąć prawym przyciskiem myszy na scenariuszu, po czym wybrać opcję Edytuj scenariusz.
  9. Zmienić zbiór danych oraz zaktualizować mapowanie danych wejściowych modelu na elementy danych.
  10. Kliknąć Zapisz, aby zapisać skoroszyt.