Profilowanie danych i zalecenia semantyczne

Gdy jest tworzony zbiór danych, Oracle Analytics przeprowadza profilowanie na poziomie kolumn, mające na celu utworzenie zestawu zaleceń semantycznych służących naprawie lub wzbogaceniu zbioru danych. Podczas tworzenia skoroszytów można również dodać do wizualizacji wzbogacenia wiedzy, używając panelu "Dane".

Uwaga:

Wzbogacenia wiedzy są zazwyczaj włączane domyślnie, ale osoby redagujące skoroszyty mogą włączać i wyłączać je w odniesieniu do zbiorów danych, które do nich należą lub które mogą edytować na podstawie swoich uprawnień. Oracle Analytics nie zapewnia w sposób automatyczny zaleceń dotyczących wzbogacania dla zbiorów danych wygenerowanych z przepływu danych. W takim przypadku właściciel lub administrator zbioru danych musi najpierw włączyć opcję wzbogacania wiedzy dla zbioru danych. Zob. Włączanie wzbogacania wiedzy dla zbiorów danych.

Zalecenia te bazują na typie semantycznym, automatycznie wykrywanym na etapie profilowania. Na przykład zbiory danych oparte na obszarach tematycznych są profilowane z użyciem prostej próbki N czołowych.

Istnieją kategorie typów semantycznych, takich jak lokalizacje geograficzne wskazywane przez nazwy miast, rozpoznawalne wzorce na kartach kredytowych, adresy e-mail i numery ubezpieczenia społecznego, daty oraz wzorce cykliczne. Można także utworzyć swoje własne niestandardowe typy semantyczne.

Kategorie typów semantycznych

Profilowanie jest stosowane do różnych typów semantycznych.

Kategorie typów semantycznych są profilowane po to, aby można było zidentyfikować:

  • Lokalizacje geograficzne, takie jak nazwy miast.
  • Wzorce, takie jak dla numerów kart kredytowych lub adresów e-mail.
  • Powtarzające się wzorce np. dane tworzące frazy rozdzielone łącznikami.

Zalecenia oparte na typach semantycznych

Zalecenia dotyczące naprawy, udoskonalenia lub wzbogacenia zbioru danych są ustalane na podstawie typu danych.

Przykłady zaleceń opartych na typach semantycznych:

  • Wzbogacanie - dodawanie nowej kolumny do danych, odpowiadającej wykrytemu typowi, takiemu jak lokalizacja geograficzna. Na przykład dodawanie danych dotyczących populacji miasta.
  • Łączenie kolumn - Jeśli w zbiorze danych zostaną wykryte dwie kolumny, jedna zawierająca imiona a druga zawierająca nazwiska, to system zaleci połączenie ich w jedną kolumnę; np. w kolumnę imię_nazwisko.
  • Wyodrębnianie semantyczne - Jeśli typ semantyczny, taki jak telefon_us składa się z dwóch podtypów (numeru kierunkowego i właściwego numeru telefonu), to system zaleci wyodrębnienie podtypu do osobnej kolumny.
  • Wyodrębnianie części - Jeśli w danych zostanie wykryty ogólny separator używany we wzorcu, to system zaleci wyodrębnienie części tego wzorca. Na przykład, jeśli system wykryje w danych powtarzające się fragmenty rozdzielone łącznikami, to zaleci wyodrębnienie tych fragmentów do osobnych kolumn w celu potencjalnego ułatwienia używania tych danych w analizach.
  • Wyodrębnianie składników daty - Jeśli zostaną wykryte daty, system zaleci wyodrębnienie ich składników w celu ułatwienia analizy danych (na przykład wyodrębnienie dania tygodnia z daty faktury lub daty zakupu).
  • Pełne i częściowe utajnianie/maskowanie - Jeśli zostaną wykryte pola z danymi wrażliwymi (np. numer karty kredytowej), system zaleci częściowe bądź pełne maskowanie kolumny lub nawet jej usunięcie.

Typy semantyczne rozpoznawane na podstawie wzorców

Typy semantyczne są rozpoznawane na podstawie wzorców wykrywanych w danych.

Rekomendacje są oferowane dla następujących typów:

  • Daty (w ponad 30 formatach)
  • Amerykańskie numery ubezpieczenia społecznego (SSN)
  • Numery kart kredytowych
  • Atrybuty kart kredytowych (kod CVV i data ważności)
  • Adresy e-mail
  • Numery telefoniczne w formacie północnoamerykańskim
  • Adresy w Stanach Zjednoczonych

Typy semantyczne ustalane referencyjnie

Rozpoznawanie typów semantycznych zależy od załadowanej wiedzy, udostępnianej przez usługę.

Zalecenia ustalane referencyjnie są oferowane dla następujących typów semantycznych:

  • Nazwy krajów
  • Kody krajów
  • Nazwy stanów (prowincji)
  • Kody stanów
  • Nazwy hrabstw (jurysdykcji)
  • Nazwy miast (zlokalizowane)
  • Kody pocztowe

Zalecane wzbogacenia

Zalecane wzbogacenia bazują na typach semantycznych.

Wzbogacenia są ustalane na podstawie hierarchii lokalizacji geograficznej:

  • Kraj
  • Prowincja (stan)
  • Jurysdykcja (hrabstwo)
  • Długość geograficzna
  • Szerokość geograficzna
  • Populacja
  • Wysokość nad poziomem morza (w metrach)
  • Strefa czasowa
  • Kody ISO krajów
  • Federalne standardy przetwarzania informacji - kody FIPS
  • Nazwa kraju
  • Stolica
  • Kontynent
  • GeoNames ID
  • Używane języki
  • Numer kierunkowy kraju
  • Format kodu pocztowego
  • Wzorzec kodu pocztowego
  • Numer kierunkowy kraju
  • Nazwa waluty
  • Skrót nazwy waluty
  • Domena geograficzna najwyższego poziomu (GeoLTD)
  • Powierzchnia w kilometrach kwadratowych

Wymagane wartości progowe

W procesie profilowania wykorzystywane są określone wartości progowe w celu decydowania o konkretnych typach semantycznych.

Generalnie przyjmuje się, że - aby system mógł ustalić klasyfikację - 85% wartości zawartych w kolumnie musi spełniać kryteria danego typu semantycznego. Wskutek tego, jeśli 70% wartości w kolumnie będą stanowić imiona, a 30% - inne dane, to nie zostaną spełnione kryteria dotyczące wartości progowej i nie pojawią się żadne zalecenia.

Zalecenia oparte na wiedzy niestandardowej

Używając zaleceń opartych na wiedzy niestandardowej, można powiększyć systemową wiedzę Oracle Analytics. Wiedza niestandardowa umożliwia profilerowi semantyki Oracle Analytics identyfikować więcej biznesowych typów semantycznych i tworzyć bardziej odpowiednie, zarządzane zalecenia dotyczące wzbogacania danych. Na przykład można dodać odwołanie oparte na wiedzy niestandardowej, klasyfikujące lekarstwa z recepty do kategorii "Przeciwbólowe" lub "Opioidalne" w pliku USP (Unsupervised Semantic Parsing).

Ikona samouczka Samouczek

O wysłanie plików wiedzy niestandardowej do Oracle Analytics należy się zwrócić do swojego administratora. Gdy użytkownik wzbogaca zbiory danych, Oracle Analytics przedstawia zalecenia dotyczące wzbogacenia danych, oparte na tych danych semantycznych. Podczas tworzenia skoroszytów można również dodać do wizualizacji wzbogacenia wiedzy, używając panelu "Dane".

Tworzenie własnych plików wiedzy niestandardowej

Tworząc pliki semantyczne, należy postępować zgodnie z następującymi wytycznymi:

  • Utworzyć plik danych w formacie CSV lub Microsoft Excel (XLSX). Maksymalny rozmiar pliku, który można wysłać, wynosi 250 MB.
  • Wypełnić pierwszą kolumnę kluczem, którego Oracle Analytics używa do profilowania danych. Kluczem może być na przykład data ze szczegółowością dzienną, co pozwala na analizę danych według roku obrotowego.
  • Wypełnić pozostałe kolumny wartościami wzbogacania.

O wysłanie swojego pliku wiedzy niestandardowej do Oracle Analytics należy się zwrócić do swojego administratora.

Przykład - integracja biznesowych ram czasowych z danymi

Ten przykład ilustruje, w jaki sposób można dodać biznesowe ramy czasowe do danych sprzedaży i umożliwić analizę sprzedaży według roku obrotowego, jeśli pierwotny zbiór danych nie zawiera danych okresów obrotowych.

Przykładowa wizualizacja przedstawia sprzedaż wg kwartału w latach 2019, 2020, 2021, 2022 i 2023, gdzie każdy rok jest reprezentowany w innym kolorze. W źródłowych danych sprzedaży nie występują dane okresów obrotowych, więc należy wdrożyć dodatkową wiedzę niestandardową w celu dodania danych okresów obrotowych do zbioru danych.

Najpierw należy przygotować dane okresów obrotowych w pliku Fiscal Calendar.xlsx. Plik ten zawiera datę (w formacie mm-dd-rrrr), rok obrotowy, miesiąc obrotowy i tydzień obrotowy. Na przykład plik źródłowy może zawierać wartość "01-23-2025" w kolumnie daty, "2025" w kolumnie roku obrotowego oraz odpowiednie atrybuty wypełniające pozostałe kolumny.

Należy poprosić administratora o wysłanie pliku Fiscal Calendar.xlsx do obszaru wiedzy niestandardowej w konsoli.

Następnie należy utworzyć zbiór danych zawierający wartości "Sales" i "ORDER_DATE", po czym w edytorze zbioru danych wybrać w zaleceniach wzbogacania opcje Enrich ORDER_DATE with Fiscal Year i Enrich ORDER_DATE with Fiscal Month. Oracle Analytics doda te dwa wzbogacenia do zbioru danych.

Na koniec należy utworzyć skoroszyt i dodać do wizualizacji wartości Fiscal Year i Fiscal Qtr (w obszarze "ORDER_DATE") oraz Sales. Uwaga: wartości Fiscal Year i Fiscal Qtr można dodać bezpośrednio, bez konieczności dodawania pierwotnej kolumny ORDER_DATE.