Profilurile de date şi recomandările semantice

Când creaţi un set de date, Oracle Analytics efectuează determinarea profilului la nivel de coloană, pentru a produce un set de recomandări semantice pentru repararea sau standardizarea datelor dvs. Când creaţi registre de lucru, puteţi include şi îmbunătăţiri ale cunoştinţelor în vizualizări, adăugându-le din panoul Date.

Notă:

Standardizările cunoştinţelor sunt activate de obicei în mod prestabilit, dar editorii de registre de lucru le pot activa sau dezactiva pentru seturile de date pe care le deţin sau pentru care au privilegii de editare. Oracle Analytics nu oferă automat recomandări de standardizare pentru seturile de date generate dintr-un flux de date. În acest caz, responsabilul sau administratorul setului de date trebuie să activeze mai întâi opţiunea de standardizare a cunoştinţelor pentru setul de date. Consultaţi Activarea standardizărilor de cunoştinţe pentru seturile de date.

Aceste recomandări sunt bazate pe sistemul care detectează automat un anumit tip semantic în cursul pasului de creare a profilului. De exemplu, s-a determinat profilul seturilor de date bazate pe zone de subiect locale folosind un exemplu simplu de tip Primele N.

Există categorii de tipuri semantice, cum ar fi locaţiile geografice identificate după numele localităţilor, tiparele recognoscibile cum ar fi pentru cardurile de credit, adresele de e-mail şi numerele de asigurări sociale, datele şi tiparele recurente. De asemenea, vă puteţi crea propriile tipuri semantice personalizate.

Categorii de tipuri semantice

Profilurile se aplică diferitelor tipuri semantice.

Categoriile de tipuri semantice sunt analizate din punct de vedere al profilului pt. a se identifica:

  • Locaţiile geografice, de ex. numele localităţilor.
  • Tiparele, cum ar fi cele din numerele de card de credit sau din adresele de e-mail.
  • Tipare recurente, cum ar fi date din expresii despărţite cu cratimă.

Recomandări de tipuri semantice

Recomandările de a repara, îmbunătăţi sau standardiza setul de date sunt determinate de tipul de date.

Exemple de recomandări pt. tipul semantic:

  • Standardizări - Adăugarea unei coloane noi la datele dvs., care corespunde unui anumit tip detectat, cum ar fi o locaţie geografică. De exemplu, adăugarea datelor despre populaţie pentru o localitate.
  • Concatenări de coloane - Când sunt detectate două coloane în setul de date, una care conţine prenume şi cealaltă care conţine nume de familie, sistemul recomandă o concatenare a numelor într-o singură coloană. De exemplu, o coloană first_name_last_name.
  • Extrageri semantice - Când un tip semantic este compus din subtipuri, de exemplu, un număr us_phone care include un prefix, sistemul recomandă extragerea subtipului în propria sa coloană.
  • Extragere de părţi - Când este detectat un separator de tipar generic în date, sistemul recomandă extragerea părţilor tiparului respectiv. De exemplu, dacă sistemul detectează o despărţire repetată prin cratimă în date, recomandă extragerea părţilor în coloane separate, pt. ca datele să fie poate mai utile pt. analiză.
  • Extrageri de date - Când sunt detectate date, sistemul recomandă extragerea părţilor de dată care pot îmbogăţi analiza datelor. De exemplu, aţi putea extrage ziua din săptămână pe baza datei facturii sau a achiziţiei.
  • Umbrire/Mascare integrală şi parţială/Ştergere - Când sunt detectate câmpuri confidenţiale, cum ar fi un număr de card de credit, sistemul recomandă o mascare integrală sau parţială a coloanei sau chiar ştergerea ei.

Tipuri semantice bazate pe tipare recunoscute

Tipurile semantice sunt identificate pe baza tiparelor găsite în datele dvs.

Recomandările sunt furnizate pt. următoarele tipuri semantice:

  • Date (în peste 30 de formate)
  • Numere de asigurări sociale din SUA (SSN)
  • Numere de carduri de credit
  • Atribute de carduri de credit (CVV şi data expirării)
  • Adrese de e-mail
  • Numere de telefon din planul nord-american
  • Adrese din SUA

Tipuri semantice bazate pe referinţe

Recunoaşterea tipurilor semantice este determinată de cunoştinţele încărcate privind referinţele, furnizate împreună cu serviciul.

Recomandările bazate pe referinţe sunt furnizate pt. următoarele tipuri semantice:

  • Nume de ţări
  • Coduri de ţări
  • Nume de state (Provincii)
  • Coduri de state
  • Nume de judeţe (Jurisdicţii)
  • Nume de localităţi (nume localizate)
  • Coduri poştale

Standardizări recomandate

Standardizările recomandate sunt bazate pe tipurile semantice.

Standardizările sunt stabilite pe baza ierarhiei de locaţii geografice:

  • Ţară
  • Provincie (Stat)
  • Jurisdicţie (Judeţ)
  • Longitudine
  • Latitudine
  • Populaţie
  • Altitudine (în metri)
  • Fus orar
  • Coduri ISO de ţări
  • Federal Information Processing Series (FIPS)
  • Nume ţară
  • Capitală
  • Continent
  • ID de nume geografice
  • Limbi vorbite
  • Prefix telefonic ţară
  • Format cod poştal
  • Tipar cod poştal
  • Prefix telefonic ţară
  • Nume monedă
  • Abreviere monedă
  • Domeniu de nivel zero geografic (GeoLTD)
  • KM pătraţi

Praguri obligatorii

Procesul de determinare a profilului utilizează anumite praguri pentru a lua decizii despre fiecare tip semantic.

Ca regulă generală, 85% dintre valorile datelor din coloană trebuie să îndeplinească criteriile pt. un singur tip semantic pt. ca sistemul să efectueze o determinare a clasificării. Ca rezultat, o coloană care poate conţine 70% prenume şi 30% “altele”, nu îndeplineşte cerinţele de prag şi, prin urmare, nu sunt efectuate recomandări.

Recomandări de articole Knowledge personalizate

Utilizaţi recomandări de articole Knowledge personalizate, pentru a extinde cunoştinţele sistemului Oracle Analytics. Articolele Knowledge personalizate permit profilerului semantic din Oracle Analytics să identifice mai multe tipuri semantice specifice de business şi să facă recomandări de standardizare mai relevante şi mai organizate. De exemplu, puteţi adăuga o referinţă la un articol Knowledge personalizat, care clasifică medicaţia pe bază de prescripţie din categoriile USP de medicamente Analgezice sau Opioide.

Pictograma Tutorial Tutorial

Cereţi administratorului dvs. să încarce fişiere de articole Knowledge personalizate în Oracle Analytics. Atunci când standardizaţi seturile de date, Oracle Analytics prezintă recomandări de standardizare pe baza acestor date semantice. Când creaţi registre de lucru, puteţi include şi îmbunătăţiri ale cunoştinţelor în vizualizări, adăugându-le din panoul Date.

Crearea propriilor fişiere de articole Knowledge personalizate

Când creaţi fişiere semantice, urmaţi aceste instrucţiuni:

  • Creaţi un fişier de date în format CSV sau Microsoft Excel (XLSX). Dimensiunea maximă a fişierului pe care îl puteţi încărca este de 250 MB.
  • Populaţi prima coloană cu cheia, pe care Oracle Analytics o utilizează pentru a profila datele. De exemplu, cheia poate fi o dată cu granularitatea zilei pentru a permite analizarea datelor în funcţie de anul fiscal.
  • Populaţi celelalte coloane cu valorile de standardizare.

Cereţi administratorului dvs. să încarce fişierul de articole Knowledge personalizate în Oracle Analytics.

Exemplu - Integrarea intervalelor de timp pentru business în datele dvs.

Acest exemplu ilustrează cum se adaugă intervalele de timp pentru business în datele de vânzări şi permite analiza vânzărilor după anul fiscal dacă setul de date iniţial nu conţine date fiscale.

Exemplul de vizualizare prezintă vânzările după trimestru în anii 2019, 2020, 2021, 2022 şi 2023, în care fiecare an este reprezentat cu altă culoare. Nu aveţi date fiscale în datele de vânzări sursă, deci implementaţi cunoştinţe personalizate suplimentare pentru a adăuga date fiscale în setul de date.

Mai întâi, pregătiţi datele fiscale într-un fişier Fiscal Calendar.xlsx. Fişierul conţine data (zz-ll-aaaa), anul fiscal, luna fiscală şi săptămâna fiscală. De exemplu, fişierul sursă poate conţine 01-23-2025 în coloana Dată, 2025 în coloana An fiscal şi atributele pentru completarea coloanelor rămase.

Cereţi administratorului să încarce fişierul Fiscal Calendar.xlsx în zona de cunoştinţe personalizată din consolă.

Apoi creaţi un set de date care conţine Vânzări şi ORDER_DATE, iar în editorul de seturi de date selectaţi Enrich ORDER_DATE WITH Fiscal Year şi Enrich ORDER_DATE with Fiscal Month în recomandările de standardizare. Oracle Analytics adaugă aceste două standardizări la setul de date.

În final, creaţi un registru de lucru şi adăugaţi An fiscal şi Trimestru fiscal (sub ORDER_DATE) şi Vânzări într-o vizualizare. Notă: Puteţi adăuga An fiscal şi Trimestru fiscal direct, fără să adăugaţi coloana ORDER_DATE iniţială.