Zastosowanie modelu analizy podobieństwa do danych

Należy użyć przepływu danych w celu przeprowadzenia analizy podobieństwa dla danych, co pozwoli na zidentyfikowanie rekordów podobnych do danego rekordu.

Przed rozpoczęciem należy się upewnić, że zostały spełnione wymagania wstępne dotyczące wykonywania analizy tego typu. Zob. Wymagania wstępne dotyczące wykonywania analizy podobieństwa w Oracle Analytics.

Na stronie startowej kliknąć kolejno Utwórz i Przepływ danych.
W oknie "Dodawanie danych" wybrać zbiór danych, po czym kliknąć Dodaj.

Należy użyć bazy danych Oracle Database lub rozwiązania Oracle Autonomous AI Lakehouse w wersji V23ai lub nowszej.
Na liście kolumn cofnąć zaznaczenie kolumn, które nie mają być analizowane (domyślnie wszystkie są zaznaczone). Należy uwzględnić kolumnę z unikatowym ID. Zaleca się wybranie od 10 do 15 kolumn. Wybranie więcej niż 15 kolumn może mieć negatywny wpływ na wydajność.

.png"
Wskazać kursorem węzeł i wybrać Dodaj etap, po czym kliknąć Analiza podobieństwa.

.png"
Wybrać model do użycia, a następnie kliknąć OK.

.png"
Rozwinąć sekcję Dane wyjściowe, a następnie wybrać Profile_expression.
Spowoduje to dodanie połączonej kolumny wyjściowej zawierającej wszystkie wybrane dane.
Rozwinąć sekcję Parametry.

.png"
Skonfigurować parametry:
- Źródło - kliknąć Wybór wartości, a następnie wybrać kolumnę danych i wartość, aby jednoznacznie zidentyfikować rekord, który ma zostać porównany z innymi rekordami w zbiorze danych. Na przykład można określić wartość "ID" i wybrać pacjenta o ID "100002".
- Pierwsze (najbliższe) lub Ostatnie (najdalsze) - wybrać opcję "Pierwsze", aby znaleźć najbardziej podobne rekordy, albo opcję "Ostatnie", aby znaleźć najmniej podobne rekordy.
- Liczba wyników - określić liczbę zwracanych zgodnych rekordów. Na przykład należy wybrać wartość "100", aby znaleźć 100 pierwszych zgodnych rekordów najbliższych rekordowi docelowemu.
- (Opcjonalnie) Kolumna referencyjna 1, 2 i 3 - określić kolumnę lub kombinację kolumn jednoznacznie identyfikujących rekordy, z którymi porównywana jest wartość Źródło. Na przykład w przypadku pacjentów medycznych można wybrać kolumny "ID", "Wiek" i "Lek". Nie trzeba dokonywać wyboru w kolumnach referencyjnych.
- Uwzględnij kolumny referencyjne na potrzeby profilowania - należy wybrać wartość "Nie", aby wykluczyć z profilowania kolumny referencyjne określone w polu Kolumna referencyjna 1, 2 i 3, albo wartość "Tak", aby uwzględnić je w profilowaniu.
Kliknąć + obok węzła Analiza podobieństwa na diagramie, a następnie kliknąć Dodaj etap i wybrać Zapisywanie danych.
Skonfigurować etap "Zapisywanie danych":

.png"
- Zbiór danych - wartość domyślną można zmienić na bardziej zrozumiałą nazwę. Na przykład "Analiza podobieństwa - 10 pierwszych".
- Tabela - nie należy zmieniać wartości domyślnej. Oracle Analytics utworzy nową wartość, gdy przepływ danych zostanie uruchomiony na podstawie określonej nazwy zbioru danych.
- (Opcjonalnie) Agregacja domyślna - można zmienić agregację domyślną. Na przykład można zmienić ją na "Średnia".
Kliknąć Zapisz model, po czym określić nazwę generowanego modelu predykcyjnego.
Kliknąć Zapisz, po czym określić nazwę przepływu danych.
Kliknąć Uruchom, aby uruchomić analizę danych i wygenerować model predykcyjny.

Zbiór danych wygenerowany przez Oracle Analytics można znaleźć na karcie Zbiór danych na stronie Dane. Zob. Interpretowanie wyników z modelu analizy podobieństwa.