Wykonywanie analizy podobieństwa w Oracle Analytics - omówienie

Oracle Analytics umożliwia wykonywanie analizy podobieństwa danych za pomocą różnych modeli osadzania wektora. Analiza podobieństwa umożliwia pomiar podobieństwa dwóch lub większej liczby obiektów, zbiorów danych, dokumentów lub wzorców na podstawie zdefiniowanych kryteriów lub miar.

Można na przykład potrzebować odpowiedzi na następujące pytania:

Którzy pacjenci mają podobne objawy jak dany pacjent?
Którzy klienci mają profile podobne do profilu danego klienta?
Jakie roszczenia ubezpieczeniowe są podobne pod względem profilu do danego roszczenia ubezpieczeniowego?

Jak to działa?

Oracle Database w wersji V23ai lub nowszej obsługuje funkcje wyszukiwania wektorowego i SQL umożliwiające obliczanie odległości między wektorami, która służy do kwantyfikacji stopnia podobieństwa między rekordami danych. Oracle Analytics używa funkcji wyszukiwania wektorowego w tle w celu wykonywania analizy podobieństwa zbiorów danych.

Zagadnienia dotyczące wydajności

Czas przetwarzania analizy podobieństwa różni się w zależności od następujących czynników:

Liczba wierszy w źródłowym zbiorze danych.
Liczba kolumn wybranych do użycia w przepływie danych. Należy pamiętać, że nie wszystkie kolumny znajdujące się w źródłowym zbiorze danych będą używane w modelu analizy podobieństwa. Zaleca się używanie od 10 do 15 kolumn. Wybranie więcej niż 15 kolumn może mieć negatywny wpływ na wydajność przepływu danych używanego do stosowania modelu.
Liczba ECPU przydzielonych do instancji Oracle Autonomous AI Lakehouse.

Przepływy danych mają limit czasu równy 2,5 godziny, co decyduje o ilości danych, które mogą być przetwarzane.