Należy użyć przepływu danych w celu przeprowadzenia analizy podobieństwa dla danych, co pozwoli na zidentyfikowanie rekordów podobnych do danego rekordu.
- Na stronie startowej kliknąć kolejno Utwórz i Przepływ danych.
- W oknie "Dodawanie danych" wybrać zbiór danych, po czym kliknąć Dodaj.
Należy użyć bazy danych Oracle Database lub rozwiązania Oracle Autonomous AI Lakehouse w wersji V23ai lub nowszej.
- Na liście kolumn cofnąć zaznaczenie kolumn, które nie mają być analizowane (domyślnie wszystkie są zaznaczone). Należy uwzględnić kolumnę z unikatowym ID. Zaleca się wybranie od 10 do 15 kolumn. Wybranie więcej niż 15 kolumn może mieć negatywny wpływ na wydajność.
- Wskazać kursorem węzeł i wybrać Dodaj etap, po czym kliknąć Analiza podobieństwa.
- Wybrać model do użycia, a następnie kliknąć OK.
- Rozwinąć sekcję Dane wyjściowe, a następnie wybrać Profile_expression.
Spowoduje to dodanie połączonej kolumny wyjściowej zawierającej wszystkie wybrane dane.
- Rozwinąć sekcję Parametry.
- Skonfigurować parametry:
- Źródło - kliknąć Wybór wartości, a następnie wybrać kolumnę danych i wartość, aby jednoznacznie zidentyfikować rekord, który ma zostać porównany z innymi rekordami w zbiorze danych. Na przykład można określić wartość "ID" i wybrać pacjenta o ID "100002".
- Pierwsze (najbliższe) lub Ostatnie (najdalsze) - wybrać opcję "Pierwsze", aby znaleźć najbardziej podobne rekordy, albo opcję "Ostatnie", aby znaleźć najmniej podobne rekordy.
- Liczba wyników - określić liczbę zwracanych zgodnych rekordów. Na przykład należy wybrać wartość "100", aby znaleźć 100 pierwszych zgodnych rekordów najbliższych rekordowi docelowemu.
- (Opcjonalnie) Kolumna referencyjna 1, 2 i 3 - określić kolumnę lub kombinację kolumn jednoznacznie identyfikujących rekordy, z którymi porównywana jest wartość Źródło. Na przykład w przypadku pacjentów medycznych można wybrać kolumny "ID", "Wiek" i "Lek". Nie trzeba dokonywać wyboru w kolumnach referencyjnych.
- Uwzględnij kolumny referencyjne na potrzeby profilowania - należy wybrać wartość "Nie", aby wykluczyć z profilowania kolumny referencyjne określone w polu Kolumna referencyjna 1, 2 i 3, albo wartość "Tak", aby uwzględnić je w profilowaniu.
- Kliknąć + obok węzła Analiza podobieństwa na diagramie, a następnie kliknąć Dodaj etap i wybrać Zapisywanie danych.
- Skonfigurować etap "Zapisywanie danych":
- Zbiór danych - wartość domyślną można zmienić na bardziej zrozumiałą nazwę. Na przykład "Analiza podobieństwa - 10 pierwszych".
- Tabela - nie należy zmieniać wartości domyślnej. Oracle Analytics utworzy nową wartość, gdy przepływ danych zostanie uruchomiony na podstawie określonej nazwy zbioru danych.
- (Opcjonalnie) Agregacja domyślna - można zmienić agregację domyślną. Na przykład można zmienić ją na "Średnia".
- Kliknąć Zapisz model, po czym określić nazwę generowanego modelu predykcyjnego.
- Kliknąć Zapisz, po czym określić nazwę przepływu danych.
- Kliknąć Uruchom, aby uruchomić analizę danych i wygenerować model predykcyjny.