Profiliranje podataka i semantičke preporuke

Nakon što stvorite skup podataka, Oracle Analytics izvršit će profiliranje na razini stupca kako bi se dobio skup semantičkih preporuka za ispravljanje ili obogaćivanje podataka. Pri stvaranju radnih knjiga, u vizualizacije možete uključiti i obogaćena znanja tako što ćete ih dodati sa zaslona s podacima.

Bilješka:

Dodaci za bazu znanja obično su omogućeni po zadanim postavkama, ali uređivači radnih knjiga mogu ili omogućiti ili onemogućiti za skupove podataka u svom vlasništvu ili za koje imaju dopuštenja za uređivanje. Oracle Analytics neće automatski pružiti preporuke za obogaćivanje za skupove podataka generirane iz tijeka podataka. U tom slučaju vlasnik ili administrator skupa podataka prvo mora omogućiti opciju dodataka za bazu znanja za skup podataka. Pogledajte Omogućavanje dodataka za bazu znanja za skupove podataka.

Sustav te preporuke automatski generira prepoznavanjem semantičke vrste tijekom profiliranja. Npr., skupovi podataka temeljem lokalnih predmetnih područja profiliraju se s pomoću jednostavnog uzorka Najboljih N.

Postoje kategorije semantičkih vrsta poput zemljopisnih lokacija koje se prepoznaju po nazivima gradova, prepoznatljivih uzoraka poput onih na kreditnim karticama, adresa e-pošte i brojeva socijalnog osiguranja, datuma i uzoraka koji se ponavljaju. Također možete stvoriti vlastite prilagođene semantičke vrste.

Kategorije semantičkih vrsta

Profiliranje se primjenjuje na razne semantičke vrste.

Kategorije semantičkih vrsta profiliraju se u cilju identificiranja sljedećih stavki:

  • Zemljopisne lokacije kao što su nazivi gradova.
  • Uzorci kao što su oni u brojevima kreditnih kartica ili adresama e-pošte.
  • Uzorci koji se ponavljaju, primjerice podaci fraza sa spojnicama.

Preporuke za semantičke vrste

Preporuke za popravak, unapređivanje ili obogaćivanje skupa podataka određuje vrsta podataka.

Primjeri preporuka semantičkih vrsta:

  • Obogaćenja ‒ Dodavanje novog stupca koji odgovara određenoj prepoznatoj vrsti, primjerice zemljopisnoj lokaciji. Primjerice, dodavanje podataka o broju stanovnika grada.
  • Ulančavanja stupaca ‒ Kad se u skupu podataka prepoznaju dva stupca od kojih jedan sadrži imena, a drugi prezimena, sustav će preporučiti da ih ulančate u jedan stupac. Primjerice, stupac first_name_last_name.
  • Semantička izdvajanja ‒ Kad se semantička vrsta sastoji od podvrsta kao što je us_phone broj koji obuhvaća predbroj, sustav će preporučiti da se predbroj izdvoji u vlastiti stupac.
  • Izdvajanje dijelova ‒ Kad se u podacima prepozna generički razdjelnik uzoraka, sustav će preporučiti izdvajanje dijelova tog uzorka. Ako sustav, na primjer, prepozna ponavljanje spojnica u podacima, preporučit će da se dijelovi izdvoje u zasebne stupce kako bi se podaci učinili pogodnijima za analizu.
  • Izdvajanje datuma ‒ Ako se prepoznaju datumi, sustav će preporučiti izdvajanje dijelova datuma koji bi mogli poboljšati analizu podataka. Na primjer, možete izvući dan u tjednu iz računa ili datuma kupnje.
  • Potpuno i djelomično sakrivanje/maskiranje/brisanje ‒ Ako se prepoznaju povjerljiva polja, primjerice broj kreditne kartice, sustav će preporučiti potpuno ili djelomično maskiranje stupca ili čak brisanje.

Semantičke vrste prepoznate na temelju uzoraka

Semantičke vrste identificiraju se na temelju uzoraka iz vaših podataka.

Za semantičke vrste ponuđene su sljedeće preporuke:

  • Datumi (u više od 30 formata)
  • Brojevi socijalnog osiguranja u SAD-u (SSN)
  • Brojevi kreditnih kartica
  • Atributi kreditnih kartica (CVV i datum isteka)
  • Adrese e-pošte
  • Brojevi telefona za Sjevernu Ameriku
  • Adrese u SAD-u

Referentne semantičke vrste

Na prepoznavanje semantičke vrste utječu učitane referentne informacije iz servisa.

Za semantičke vrste ponuđene su referentne preporuke:

  • Nazivi država
  • Šifre država
  • Nazivi saveznih država (pokrajina)
  • Šifre saveznih država
  • Nazivi okruga (jurisdikcija)
  • Nazivi gradova (lokalizirani nazivi)
  • Poštanski brojevi

Preporučena obogaćenja

Preporučena obogaćenja temelje se na vrstama semantike.

Obogaćenja se određuju na temelju hijerarhije zemljopisne lokacije:

  • Država
  • Pokrajina (savezna država)
  • Jurisdikcija (okrug)
  • Zemljopisna dužina
  • Zemljopisna širina
  • Stanovništvo
  • Nadmorska visina (u metrima)
  • Vremenska zona
  • ISO šifre država
  • Federal Information Processing Series (FIPS)
  • Naziv države
  • Glavni grad
  • Kontinent
  • GeoNames ID
  • Jezici
  • Predbroj države
  • Format poštanskog broja
  • Uzorak poštanskog broja
  • Predbroj države
  • Naziv valute
  • Skraćeni naziv valute
  • Najviša zemljopisna domena (GeoLTD)
  • Površina u četvornim km

Obavezni pragovi

Postupak profiliranja upotrebljava specifične pragove za donošenje odluka o specifičnim semantičkim vrstama.

Prema općenitom pravilu, 85 % vrijednosti podataka u stupcu mora odgovarati kriterijima za jednu semantičku vrstu kako bi sustav mogao utvrditi klasifikaciju. Zbog toga stupac koji možda sadrži 70 % imena i 30 % ostalog sadržaja neće ispuniti uvjete praga te se neće dati preporuka.

Preporuke za prilagođeno znanje

Upotrijebite preporuke za prilagođeno znanje kako biste povećali sistemsko znanje servisa Oracle Analytics. Prilagođeno znanje omogućuje semantičkom profileru servisa Oracle Analytics identifikaciju više semantičkih vrsta specifičnih za poslovanje i donošenje relevantnijih preporuka za obogaćivanje kojima se upravlja. Na primjer, možete dodati referencu za prilagođeno znanje koja klasificira lijek na recept u USP kategorije lijekova Analgetici ili Opijati.

Ikona vodiča Vodič

Upitajte svojeg administratora da učita datoteke prilagođenog znanja u servis Oracle Analytics. Kad obogatite skupove podataka, servis Oracle Analytics predstavlja preporuke obogaćivanja na temelju tih semantičkih podataka. Pri stvaranju radnih knjiga, u vizualizacije možete uključiti i obogaćena znanja tako što ćete ih dodati sa zaslona s podacima.

Stvaranje vlastitih datoteka s prilagođenim znanjem

Kad stvarate semantičke datoteke, slijedite ove smjernice:

  • Stvorite datoteku s podacima u CSV ili Microsoft Excel (XLSX) formatu. Maksimalna veličina datoteke koju možete prenijeti je 250 MB.
  • Popunite prvi stupac ključem koji servis Oracle Analytics upotrebljava za profiliranje podataka. Na primjer, ključ bi mogao biti datum sa zrnatošću dana kako bi se podaci mogli analizirati prema fiskalnoj godini.
  • Popunite druge stupce vrijednostima obogaćivanja.

Upitajte svojeg administratora da učita vašu datoteku prilagođenog znanja u servis Oracle Analytics.

Primjer - integriranje poslovnih vremenskih okvira u podatke

U ovom primjeru prikazano je kako poslovne vremenske okvire možete dodati u podatke o prodaji i omogućiti analizu prodaje prema fiskalnoj godini ako izvorni skup podataka ne sadrži fiskalne podatke.

Primjer vizualizacije prikazuje prodaju prema tromjesečju u godinama 2019., 2020., 2021., 2022. i 2023., pri čemu je svaka godina predstavljena drugom bojom. Nemate fiskalne podatke u izvornim podacima o prodaji, pa implementirate dodatno prilagođeno znanje za dodavanje fiskalnih podataka u svoj skup podataka.

Prvo fiskalne podatke pripremite u datoteci Fiscal Calendar.xlsx. Vaša datoteka sadrži datum (dd-mm-yyyy), fiskalnu godinu, fiskalni mjesec i fiskalni tjedan. Na primjer, izvorna datoteka može imati 01-23-2025 u stupcu datuma, 2025 u stupcu fiskalne godine i atribute za dovršetak preostalih stupaca.

Od administratora zatražite prijenos dokumenta Fiscal Calendar.xlsx u prilagođeno područje znanja u konzoli.

Zatim stvorite skup podataka koji sadrži Prodaje i ORDER_DATE, a u uređivaču skupa podataka odaberite Obogati ORDER_DATE fiskalnom godinom i Obogati ORDER_DATE fiskalnim mjesecom u preporukama za obogaćivanje. Oracle Analytics dodaje ta dva obogaćivanja u skup podataka.

Naposljetku stvorite radnu knjigu i dodajte Fiskalnu godinu i Fiskalno tromjesečje (pod ORDER_DATE) i Prodaju u vizualizaciju. Napomena: Fiskalna godina i Fiskalno tromjesečje možete izravno dodati bez dodavanja izvornog stupca ORDER_DATE.