Modele predykcyjne Oracle Analytics używają kilku wbudowanych algorytmów Oracle Machine Learning w celu eksplorowania zbiorów danych, prognozowania wartości docelowych lub identyfikowania klas rekordów. Modele predykcyjne tworzy się, trenuje i stosuje do danych za pomocą edytora przepływu danych.
Predykcyjny model Oracle Analytics stosuje określony algorytm do zbioru danych w celu prognozowania wartości i klas lub zidentyfikowania grup występujących w danych.
Do prognozowania danych można także używać modeli Oracle Machine Learning.
Oracle Analytics udostępnia algorytmy pomagające szkolić modele predykcyjne do różnych zastosowań. Na przykład algorytmy obejmują drzewa klasyfikacji i regresji CART (Classification and Regression Trees), regresję logistyczną i centroidy.
Najpierw, do przeszkolenia modelu na szkoleniowym zbiorze danych, jest używany edytor przepływu danych. Po wyszkoleniu modelu predykcyjnego można go zastosować do zbiorów danych, dla których ma być generowana prognoza.
Wyszkolony model można udostępnić innym użytkownikom, tak aby mogli stosować go do swoich danych w celu prognozowania. W niektórych sytuacjach określeni użytkownicy szkolą modele, a inni je stosują.
Uwaga:
Nie mając pewności, czego szukać w swoich danych, można zacząć od użycia funkcji wyjaśniania, używającej mechanizmów uczenia maszynowego do identyfikacji trendów i wzorców. Następnie można za pomocą edytora przepływu danych utworzyć i wyszkolić modele predykcyjne, zagłębiające się w trendy i wzorce wykryte przez funkcję wyjaśniania.Gotowego modelu można użyć do oceny nieznanych lub niemających etykiety danych w celu wygenerowania zbioru danych (w ramach przepływu danych) albo dodania wizualizacji predykcji do skoroszytu.
Przykład
Załóżmy, że chcemy utworzyć i wyszkolić model klasyfikacji wieloklasowej, aby przewidzieć, dla których pacjentów istnieje duże ryzyko wystąpienia choroby serca.
Oracle Analytics udostępnia algorytmy do modelowania uczenia maszynowego, obejmujące predykcję liczbową, klasyfikację wieloklasową, klasyfikację dwójkową i klastrowanie.
Udostępniane przez Oracle funkcje uczenia maszynowego są przeznaczone dla zaawansowanych analityków danych, którzy wiedzą, czego szukają w danych, znają się na analizach predykcyjnych oraz rozumieją różnice między poszczególnymi algorytmami.
Uwaga:
Jeśli są używane dane pochodzące z Oracle Autonomous Data Warehouse, to do wytrenowania modelu predykcyjnego można używać funkcji AutoML, co nie wymaga umiejętności w zakresie uczenia maszynowego. Zob. Trenowanie modelu predykcyjnego przy użyciu funkcji AutoML z Oracle Autonomous Data Warehouse.Zwykli użytkownicy zazwyczaj tworzą kilka modeli predykcji, porównują je i wybierają ten, który najprawdopodobniej da wyniki spełniające określone kryteria i wymagania. Kryteria te mogą się zmieniać. Na przykład niekiedy użytkownicy wybierają modele zapewniające lepszą dokładność ogólną, kiedy indziej wybierają modele cechujące się najmniejszą liczbą błędów typu I (wyniki fałszywie pozytywne) i typu II (wyniki fałszywie negatywne), a jeszcze inni wybierają modele zwracające wyniki szybciej z określonym poziomem dokładności, nawet jeśli te wyniki nie są idealne.
Oracle Analytics udostępnia wiele algorytmów uczenia maszynowego dla poszczególnych rodzajów predykcji lub klasyfikacji. Użytkownik, korzystając z tych algorytmów, może utworzyć więcej niż jeden model oraz używać różnych dostrajanych parametrów i różnych szkoleniowych zbiorów danych, aby na koniec wybrać najlepszy model. Użytkownik może wybrać najlepszy model, porównując i oceniając modele w odniesieniu do swoich własnych kryteriów. Aby ustalić najlepszy model, może zastosować model i zwizualizować wyniki obliczeń w celu sprawdzenia dokładności albo otworzyć i eksplorować powiązane zbiory danych które były używane przez Oracle Analytics do modelowania wyników.
Więcej informacji o udostępnianych algorytmach można znaleźć w poniższej tabeli:
Nazwa | Typ | Kategoria | Funkcja | Opis |
---|---|---|---|---|
CART |
Klasyfikacja Regresja |
Klasyfikator dwójkowy Klasyfikator wieloklasowy Liczbowe |
- | Używa drzew decyzyjnych do prognozowania wartości zarówno dyskretnych, jak i ciągłych.
Do użycia z dużymi zbiorami danych. |
Regresja liniowa Elastic Net | Regresja | Liczbowe | ElasticNet | Zaawansowany model regresji. Dostarcza dodatkowe informacje (regularyzacja), dokonuje wyboru zmiennych oraz przeprowadza kombinacje liniowe. Kary wynikające z metod regresji Lasso i Ridge (grzbietowej).
Powinno się używać z dużą liczbą atrybutów, aby uniknąć współliniowości (kiedy wiele atrybutów wykazuje doskonała korelację) i nadmiernego dopasowania (przeuczenia). |
Hierarchiczne | Klastrowanie | Klastrowanie | Klastrowanie aglomeracyjne (AgglomerativeClustering) | Tworzy hierarchię klasterów w sposób oddolny (każda obserwacja stanowi swój własny klaster) lub odgórny (wszystkie obserwacje zaczynają się jako jeden klaster), używając miar odległości.
Powinno się używać, gdy zbiór danych nie jest duży, a liczba klasterów nie jest z góry znana. |
Algorytm centroidów | Klastrowanie | Klastrowanie | Algorytm centroidów | Dzieli rekordy iteracyjnie na k klasterów, w których każda obserwacja należy do klastera z najbliższą średnią.
Powinno się używać do klasterowania kolumn miar z określonym oczekiwaniem liczby potrzebnych klasterów. Działa dobrze z dużymi zbiorami danych. Wyniki są różne dla poszczególnych przebiegów. |
Regresja liniowa | Regresja | Liczbowe | Metoda najmniejszych kwadratów (OLS)
Grzbietowa (Ridge) Lasso |
Liniowe podejście do modelowania relacji między zmienną docelową a innymi atrybutami ze zbioru danych.
Służy do prognozowania wartości liczbowych, gdy atrybuty nie są idealnie skorelowane. |
Regresja logistyczna | Regresja | Klasyfikator dwójkowy | LogisticRegressionCV | Służy do prognozowania wartości zmiennej zależnej kategoryzacyjnej. Zmienną zależną jest zmienna dwójkowa zawierająca dane zakodowane jako 1 lub 0. |
Naive Bayes | Klasyfikacja |
Klasyfikator dwójkowy Klasyfikator wieloklasowy |
GaussianNB | Klasyfikacja probabilistyczna oparta na twierdzeniu Bayesa, zakładająca brak zależności między cechami.
Powinno się używać przy dużej liczbie wymiarów wejściowych. |
Sieć neuronowa | Klasyfikacja |
Klasyfikator dwójkowy Klasyfikator wieloklasowy |
Klasyfikator MLP (MLPClassifier) | Iteracyjny algorytm klasyfikacji, uczący się przez porównanie swojego wyniku klasyfikacji z wartością faktyczną i zwracający go do sieci w celu zmodyfikowania algorytmu dla dalszych iteracji.
Służy do analiz tekstów. |
Las losowy | Klasyfikacja |
Klasyfikator dwójkowy Klasyfikator wieloklasowy Liczbowe |
- | Metoda szkolenia zespołowego, konstruująca kilka drzew decyzyjnych i wyprowadzająca wartość reprezentującą zbiorczo wszystkie drzewa decyzyjne.
Służy do prognozowania zmiennych liczbowych i kategoryzacyjnych. |
SVM | Klasyfikacja |
Klasyfikator dwójkowy Klasyfikator wieloklasowy |
LinearSVC, SVC | Klasyfikuje rekordy, mapując je w przestrzeni i konstruując hiperpłaszczyzny, które mogą być używane do klasyfikacji. Nowe rekordy (dane oceny) są mapowane w przestrzeni i są prognozowane jako należące do kategorii opartej na brzegu hiperpłaszczyzny, do której należą. |
Gdy są używane dane z Oracle Autonomous Data Warehouse, można używać dostępnej w tym produkcie funkcji AutoML do zalecenia i wytrenowania modelu predykcyjnego. AutoML analizuje dane, ustala najlepszy do użycia algorytm oraz rejestruje model predykcyjny w Oracle Analytics, tak aby można było tworzyć prognozy na podstawie swoich danych.
OML_Developer
i nie jest superużytkownikiem "admin". W przeciwnym razie przepływ danych zakończy się niepowodzeniem, gdy zostanie podjęta próba zapisania go lub uruchomienia.Zaawansowani analitycy danych mogą tworzyć i trenować modele predykcyjne, których będzie można używać do wdrażania algorytmów Oracle Machine Learning w celu eksplorowania zbiorów danych, przewidywania wartości docelowej albo identyfikowania klas rekordów. Za pomocą edytora przepływu danych można tworzyć i trenować modele predykcyjne oraz stosować je do swoich danych.
Uzyskanie dokładnego modelu jest procesem iteracyjnym - zaawansowany analityk danych może próbować różne modele, porównywać ich wyniki oraz na ich podstawie dostrajać parametry. Finalny, dokładny model predykcyjny może być używany przez analityka danych do prognozowania trendów w innych zbiorach danych, a także może zostać dodany do skoroszytów.
Uwaga:
Jeśli są używane dane pochodzące z Oracle Autonomous Data Warehouse, to do wytrenowania modelu predykcyjnego można używać funkcji AutoML, co nie wymaga umiejętności w zakresie uczenia maszynowego. Zob. Trenowanie modelu predykcyjnego przy użyciu funkcji AutoML z Oracle Autonomous Data Warehouse.Oracle Analytics udostępnia algorytmy predykcji liczbowej, klasyfikacji wieloklasowej, klasyfikacji dwójkowej i klasterowania.
Oracle Analytics umożliwia szkolenie, za pomocą etapów w przepływach danych, modeli uczenia maszynowego. Wyszkolony model uczenia maszynowego można zastosować do danych, używając etapu Stosowanie modelu.
Nazwa etapu | Opis |
---|---|
AutoML (wymaga produktu Oracle Autonomous Data Warehouse) | Funkcji AutoML z Oracle Autonomous Data Warehouse można używać do zalecenia i wytrenowania modelu predykcyjnego. AutoML analizuje dane, ustala najlepszy do użycia algorytm oraz rejestruje model predykcyjny w Oracle Analytics, tak aby można było tworzyć prognozy na podstawie swoich danych. |
Szkolenie klasyfikatora dwójkowego |
Wyszkolenie modelu uczenia maszynowego do klasyfikowania danych do jednej z dwóch predefiniowanych kategorii. |
Szkolenie klastrowania | Wyszkolenie modelu uczenia maszynowego do segregacji grup o podobnych cechach i przypisania ich do klasterów. |
Szkolenie multiklasyfikatora | Wyszkolenie modelu uczenia maszynowego do klasyfikowania danych do trzech lub większej liczby predefiniowanych kategorii. |
Szkolenie predykcji liczbowej | Wyszkolenie modelu uczenia maszynowego do predykcji wartości liczbowej na podstawie znanych wartości danych. |
Po utworzeniu modelu predykcyjnego i uruchomieniu przepływu danych można sprawdzić informacje dotyczącego modelu w celu ustalenia jego dokładności. Korzystając z tych informacji, można iteracyjnie dostosowywać ustawienia modelu, tak aby zwiększyć jego dokładność i uzyskiwać lepsze wyniki.
Szczegółowe informacje o modelu predykcyjnym pomagają zrozumieć model i ustalić, czy jest on odpowiedni do predykcji naszych danych. Szczegóły modelu obejmują jego klasę, algorytm oraz kolumny wejściowe i wyjściowe.
Można wyświetlić informacje pomagające zrozumieć jakość modelu predykcyjnego. Na przykład można przejrzeć miary dokładności, takie jak dokładność modelu, precyzja, czułość, wartość F1 i współczynnik fałszywie pozytywnych.
Gdy zostanie uruchomiony przepływ danych w celu utworzenia predykcyjnego modelu Oracle Analytics ze szkoleniem, Oracle Analytics utworzy zestaw powiązanych zbiorów danych. Chcąc poznać dokładność modelu, można otwierać i tworzyć skoroszyty oparte na tych zbiorach danych.
W zależności od algorytmu, wybranego dla modelu, powiązane zbiory danych zawierają szczegóły modelu, takie jak reguły predykcji, miary dokładności, macierz błędów czy kluczowe czynniki predykcji. Informacji tych można użyć do dostrojenia modelu w celu uzyskania lepszych wyników, a powiązane zbiory danych mogą być używane do porównywania modeli i ustalania, który z nich jest bardziej dokładny.
Na przykład można otworzyć zbiór danych "Czynniki" (Drivers), aby stwierdzić, które kolumny mają silny pozytywny lub negatywny wpływ na model. Badając te kolumny, można ustalić, że niektóre kolumny nie są traktowane jako zmienne modelu, ponieważ nie są realistycznymi danymi wejściowymi albo są zbyt szczegółowe dla prognozy. Można otworzyć model w edytorze przepływu danych, a następnie - bazując na poznanych informacjach - usunąć zbędne lub zbyt szczegółowe kolumny, po czym ponownie wygenerować model. Przeglądając karty "Jakość" i "Wyniki", można sprawdzić, czy dokładność modelu się poprawiła. Proces ten należy kontynuować, aż zostanie uzyskana satysfakcjonująca dokładność modelu i będzie on gotów do oceny nowego zbioru danych.
Podobne powiązane zbiory danych są generowane przy użyciu różnych algorytmów. Nazwy parametrów i kolumn mogą się zmieniać w zbiorze danych w zależności od typu algorytmu, lecz funkcjonalność zbioru danych pozostaje niezmieniona. Na przykład nazwy kolumn w zbiorze danych "Statystyka" mogą się zmienić z "Regresja liniowa" na "Regresja logistyczna", lecz nadal ten zbiór danych będzie zawierał miary dokładności modelu.
Powiązane zbiory danych dla modeli AutoML
Podczas trenowania modelu predykcyjnego przy użyciu funkcji AutoML Oracle Analytics tworzy dodatkowe zbiory danych zawierające przydatne informacje dotyczące modelu. Liczba tworzonych zbiorów danych zależy od algorytmu modelu. Na przykład w przypadku naiwnych modeli Bayesa Oracle Analytics tworzy zbiór danych zawierający informacje o prawdopodobieństwach warunkowych. W przypadku modelu drzewa decyzyjnego zbiór danych zawiera informacje o statystykach drzewa decyzyjnego. Podczas badania modelu wygenerowanego przez funkcję AutoML za pomocą algorytmu uogólnionego modelu liniowego (GLM, Generalized Linear Model) są widoczne wpisy oznaczone prefiksem GLM* dla zbiorów danych specyficznych dla modelu, które zawierają informacje o metadanych dotyczące modelu.
.png"
Powiązane zbiory danych
Uwaga:
Oracle Analytics dołącza nazwę wyników przepływu danych do powiązanego typu zbioru danych. Na przykład w przypadku modelu CART, jeśli wyniki przepływu danych mają nazwę "cart_model2", to zbiór danych jest nazywany "cart_model2_CART".CART
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "CART" (Classification and Regression Tree), który zawiera kolumny przedstawiające warunki i kryteria warunków z drzewa decyzyjnego, predykcję dla każdej z grup i poziom ufności predykcji. Aby zwizualizować to drzewo decyzyjne, należy użyć wizualizacji "Diagram drzewiasty".
Zbiór danych "CART" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytm |
---|---|
Liczbowe | CART dla predykcji liczbowej |
Klasyfikacja dwójkowa | CART |
Klasyfikacja wieloklasowa | CART |
Raport klasyfikacji
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Raport klasyfikacji". Na przykład jeśli kolumna docelowa może zawierać dwie wartości dystynktywne "Tak" i "Nie", ten zbiór danych pokazuje miary dokładności, takie jak "F1", "Precyzja", "Czułość" i "Obsługa" (liczba wierszy w szkoleniowym zbiorze danych z tą wartością) dla każdej wartości dystynktywnej kolumny docelowej.
Zbiór danych "Klasyfikacja" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytmy |
---|---|
Klasyfikacja dwójkowa |
Naive Bayes Sieć neuronowa Maszyna wektorów nośnych |
Klasyfikacja wieloklasowa |
Naive Bayes Sieć neuronowa Maszyna wektorów nośnych |
Macierz błędów
Oracle Analytics tworzy tabelę przestawną dla powiązanego zbioru danych "Macierz błędów". Każdy wiersz reprezentuje wystąpienie prognozowanej klasy, a każda kolumna reprezentuje wystąpienie w faktycznej klasie. Tabela ta zawiera informacje o liczbie fałszywie pozytywnych, fałszywie negatywnych, rzeczywiście pozytywnych i rzeczywiście negatywnych, które są używane do obliczania miar dokładności "Precyzja", "Czułość" i "F1".
Zbiór danych "Macierz błędów" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytmy |
---|---|
Klasyfikacja dwójkowa |
Regresja logistyczna CART (drzewo decyzyjne) Naive Bayes Sieć neuronowa Las losowy Maszyna wektorów nośnych |
Klasyfikacja wieloklasowa |
CART (drzewo decyzyjne) Naive Bayes Sieć neuronowa Las losowy Maszyna wektorów nośnych |
Czynniki
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Czynniki", który zawiera informacje o kolumnach określających wartości kolumn docelowych. Do identyfikacji tych kolumn jest używana regresja liniowa. Każdej kolumnie są przypisywane wartości współczynnika i korelacji. Wartość współczynnika opisuje wagę kolumny używaną do ustalenia wartości kolumny docelowej. Wartość korelacji sygnalizuje kierunek relacji między kolumną docelową a kolumną zależności. Na przykład, czy wartość kolumny docelowej zwiększa się lub zmniejsza w zależności od kolumny zależności.
Zbiór danych "Czynniki" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytmy |
---|---|
Liczbowe |
Regresja liniowa Regresja liniowa Elastic Net |
Klasyfikacja dwójkowa |
Regresja logistyczna Maszyna wektorów nośnych |
Klasyfikacja wieloklasowa | Maszyna wektorów nośnych |
Mapa trafień
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Mapa trafień", która zawiera informacje o węzłach-liściach drzewa decyzyjnego. Każdy wiersz w tabeli reprezentuje węzeł-liść i zawiera informacje opisujące, co przedstawia węzeł-liść, takie jak rozmiar segmentu, ufność i oczekiwana liczba wierszy. Na przykład oczekiwana liczba poprawnych prognoz = Rozmiar segmentu * Ufność.
Zbiór danych "Mapa trafień" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytm |
---|---|
Liczbowe | CART dla predykcji liczbowej |
Wartości rezydualne
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Wartości rezydualne", który zawiera informacje o jakości predykcji wartości rezydualnych. Wartość rezydualna jest to różnica między wartością mierzoną a prognozowaną przez model regresji. Ten zbiór danych zawiera wartość agregowanej sumy bezwzględnej różnicy między wartościami faktycznymi a prognozowanymi dla wszystkich kolumn w zbiorze danych.
Zbiór danych "Wartości rezydualne" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytmy |
---|---|
Liczbowe |
Regresja liniowa Regresja liniowa Elastic Net CART dla predykcji liczbowej |
Klasyfikacja dwójkowa | CART (drzewo decyzyjne) |
Klasyfikacja wieloklasowa | CART (drzewo decyzyjne) |
Statystyki
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Statystyki". Miary z tego zbioru danych zależą od algorytmu użytego do wygenerowania tych miar. Miary zależne od algorytmu:
Ten zbiór danych jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytm |
---|---|
Liczbowe |
Regresja liniowa Regresja liniowa Elastic Net CART dla predykcji liczbowej |
Klasyfikacja dwójkowa |
Regresja logistyczna CART (drzewo decyzyjne) Naive Bayes Sieć neuronowa Las losowy Maszyna wektorów nośnych |
Klasyfikacja wieloklasowa |
Naive Bayes Sieć neuronowa Las losowy Maszyna wektorów nośnych |
Podsumowanie
Oracle Analytics tworzy tabelę dla powiązanego zbioru danych "Podsumowanie", który zawiera informacje takie jak nazwa celu i nazwa modelu.
Zbiór danych "Podsumowanie" jest tworzony, gdy zostaną wybrane następujące kombinacje modelu i algorytmu.
Model | Algorytmy |
---|---|
Klasyfikacja dwójkowa |
Naive Bayes Sieć neuronowa Maszyna wektorów nośnych |
Klasyfikacja wieloklasowa |
Naive Bayes Sieć neuronowa Maszyna wektorów nośnych |
Powiązane zbiory danych są generowane podczas szkolenia modelu predykcyjnego.
Tworząc w skoroszycie scenariusz, do zbioru danych skoroszytu stosuje się model predykcyjny w celu odkrycia trendów i wzorców, do których wykrywania model został zaprojektowany.
Uwaga:
Do danych ze skoroszytu nie można zastosować modelu Oracle Machine Learning.