Funkcje analizy bazy danych

Funkcje analizy bazy danych umożliwiają przeprowadzanie zaawansowanych analiz i analiz eksploracji danych, na przykład umożliwiających wykrywanie danych, grupowanie danych, próbkowanie danych i analizowanie powinowactwa. Funkcje analizy są dostępne, gdy zostało nawiązane połączenie z bazą danych Oracle lub Oracle Autonomous Data Warehouse.

Ikona samouczka LiveLabs - Sprint

Aby w edytorze przepływu danych można było wyświetlić etap Analizy bazy danych, trzeba się połączyć z bazą danych Oracle lub z Oracle Autonomous Data Warehouse.

Typy funkcji Opis

Dynamiczne wykrywanie anomalii

Umożliwia wykrywanie anomalii w danych wejściowych bez użycia predefiniowanego modelu. Na przykład można wyróżnić nietypowe transakcje finansowe.

Jeśli funkcja ta zostanie wdrożona z dużymi zbiorami danych, należy - aby zmaksymalizować wydajność - skonfigurować kolumny partycji.

Dynamiczne klastrowanie

Umożliwia klastrowanie danych wejściowych bez użycia predefiniowanego modelu. Na przykład można scharakteryzować i wykryć segmenty klientów dla celów marketingowych.

Jeśli funkcja ta zostanie wdrożona z dużymi zbiorami danych, należy - aby zmaksymalizować wydajność - skonfigurować kolumny partycji.

Zbiory elementów często występujące jednocześnie

Można wykrywać relacje między danymi, identyfikując zbiory elementów, które często występują jednocześnie. Ta technika eksploracji danych jest także określana jako nauczanie reguł powiązania, analiza powinowactwa lub - w branży detalicznej - analiza koszyka rynkowego. Jeśli zostanie użyta jako narzędzie do analizy koszyka rynkowego, można np. ustalić, że klienci kupujący szampon kupują także odżywkę do włosów.

Ta operacja angażuje wiele zasobów i jej wydajność zależy od różnych czynników, takich jak wielkość wejściowego zbioru danych, kardynalność identyfikatora transakcji oraz kardynalność wartości kolumny "Element" (Item). Aby uniknąć potencjalnego pogorszenia wydajności bazy danych, należy zacząć od większej minimalnej obsługiwanej wartości procentowej (domyślnie 0,25), po czym stopniowo ją zmniejszać, uzyskując w wyniku więcej zbiorów elementów.

Próbkowanie danych

Wybiera losowo pewien procent danych z tabeli. Wystarczy określić procent próbkowanych danych. Na przykład można uzyskać losową 10-procentową próbkę danych.

Tokenizacja tekstu

Można analizować dane tekstowe, rozbijając je na pojedyncze wyrazy i licząc wystąpienia każdego z nich. Gdy zostanie uruchomiony przepływ danych, Oracle Analytics utworzy w bazie danych tabelę DR$NazwaIndeksu$I, zawierającą tekst tokenu i szczegóły związane z liczbą tokenów. Tabeli DR$NazwaIndeksu$I należy użyć do utworzenia zbioru danych.

  • W obszarze Dane wyjściowe wybrać - używając opcji Utwórz obok poszczególnych pól - kolumny do indeksowania.

  • W obszarze Parametry, w części Kolumny, wybrać opcję Wybór kolumny, aby wybrać pole, które ma zostać rozbite na osobne wyrazy. Używając opcji Odwołanie do kolumny<numer>, zawrzeć kolumny (jedną lub większą ich liczbę) w wyjściowym zbiorze danych. Użyj opcji Użyj specjalnego leksera językowego, aby wybrać określone języki, takie jak chiński, duński, holenderski, angielski, fiński, niemiecki, norweski, japoński, koreański, szwedzki, dla lekserów specjalnych. Zob. dokumentację Oracle Database, aby uzyskać więcej informacji na temat obsługiwanych języków.

Połączenie z bazą danych, które jest używane dla przepływu danych, wymaga specjalnych uprawnień do bazy danych. Należy sprawdzić u administratora, czy:
  • Używane konto ma: grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Jest używane połączenie z Oracle Analytics, mające tę samą nazwę użytkownika co schemat, w którym istnieje tabela źródłowa. Jest to najlepsza praktyka pozwalająca uniknąć problemów z prawami dostępu, gdy jest uruchamiany przepływ danych.
  • Analizowana kolumna tabeli bazy danych nie ma istniejącego indeksu CONTEXT. Jeśli dla analizowanej tabeli bazy danych istnieje indeks CONTEXT, należy go usunąć przed uruchomieniem przepływu tokenizacji tekstu.

Ciągi czasowe

Ciągi czasowe to technika eksploracji danych prognozująca wartość docelową na podstawie znanej historii wartości docelowych. Daną wejściową dla analizy ciągów czasowych jest sekwencja wartości docelowych. Analiza dostarcza oszacowania wartości docelowej dla każdego z okresów okna czasowego, które może zawierać do 30 okresów danych historycznych.

Model ten oblicza także różne statystyki mierzące stopień zgodności z danymi historycznymi. Statystyki te są dostępne jako dodatkowy wyjściowy zbiór danych określany przez ustawienie parametru.

Uwaga: Algorytm ciągów czasowych jest dostępny tylko dla baz danych Oracle w wersji co najmniej 18c.

Cofanie przestawienia danych

Umożliwia przekształcenie danych składowanych w kolumnach do formatu wierszy. Na przykład można przetransponować kolumny pokazujące wartości przychodu dla poszczególnych lat w jedną kolumnę przychodu z wieloma wierszami wartości dla wymiaru "Rok". Wystarczy wybrać kolumny miar do transponowania, po czym określić nazwę nowej kolumny. Powstanie nowy zbiór danych z mniejszą liczbą kolumn i większą liczbą wierszy.

Uwaga: aby można było używać funkcji analitycznych, należy upewnić się, że administrator je włączył (zob. konsola, Zaawansowane ustawienia systemowe, Wydajność i zgodność, Włącz węzeł "Analizy bazy danych" w przepływach danych).