Profili di dati e suggerimenti semantici

Quando si crea un data set, Oracle Analytics effettua il profiling a livello di colonna per generare un set di suggerimenti semantici finalizzato a riparare o arricchire i dati. Quando si creano cartelle di lavoro, è possibile includere gli arricchimenti Knowledge Base nelle visualizzazioni aggiungendole dal Pannello dati.

Tali suggerimenti si basano sul sistema di rilevamento automatico di un tipo di semantica specifica durante il passo di profilo. Ad esempio, per i data set basati su aree argomenti locali viene effettuato il profiling utilizzando un campione Primi N semplice.

Esistono categorie di tipi di semantica: aree geografiche identificate dai nomi di città, pattern riconoscibili come nelle carte di credito, indirizzi di posta elettronica e numeri di previdenza sociale, date e pattern ricorrenti. È inoltre possibile creare propri tipi di semantica personalizzati.

Categorie dei tipi di semantica

Ai vari tipi di semantica viene applicato il profiling.

Le categorie dei tipi di semantica vengono sottoposte a profiling per identificare:

  • aree geografiche, ad esempio i nomi delle città;
  • pattern, ad esempio quelli dei numeri delle carte di credito o degli indirizzi di posta elettronica;
  • pattern ricorrenti, ad esempio dati di un'espressione con trattini.

Suggerimenti sui tipi di semantica

I suggerimenti per correggere, migliorare o arricchire il data set dipendono dal tipo dei dati.

Esempi di suggerimenti per i tipi di semantica

  • Arricchimenti: aggiunta di una nuova colonna ai dati corrispondente a un tipo specifico rilevato, ad esempio un'area geografica. Ad esempio, l'aggiunta dei dati relativi alla popolazione per un città.
  • Concatenazione di colonne: quando nel data set vengono rilevate due colonne, una contenente i nomi e l'altra i cognomi, il sistema consiglia di concatenare i nomi in un'unica colonna. Ad esempio, una colonna first_name_last_name.
  • Estrazioni semantiche: quando un tipo di semantica è composto da sottotipi, ad esempio un numero us_phone che include il prefisso della città, il sistema consiglia di estrarre il sottotipo nella rispettiva colonna.
  • Estrazione di parti: quando viene rilevata la presenza di un separatore di pattern generico nei dati, il sistema consiglia di estrarne le parti. Ad esempio se il sistema rileva una sillabazione ripetuta nei dati, consiglia di estrarre le parti in colonne separate per rendere i dati potenzialmente più utili per l'analisi.
  • Estrazioni di date: quando vengono rilevate le date, il sistema consiglia di estrarre le parti della data che potrebbero aumentare l'analisi dei dati. Ad esempio, è possibile estrarre il giorno della settimana dalla data di fatturazione o di acquisto.
  • Offuscamento/mascheramento completo e parziale/eliminazione: quando vengono rilevati campi con informazioni riservate, quale un numero di carta di credito, il sistema consiglia il mascheramento completo o parziale, o anche la rimozione, della colonna.

Tipi di semantica basati su pattern riconosciuti

I tipi di semantica vengono identificati in base ai pattern trovati nei dati.

Vengono forniti suggerimenti per i tipi di semantica seguenti:

  • Date (in più di 30 formati)
  • Numeri di previdenza sociale USA (SSN)
  • Numeri di carta di credito
  • Attributi di carta di credito (CVV e data di scadenza)
  • Indirizzi di posta elettronica
  • Numeri di telefono piano per il Nord America
  • Indirizzi degli Stati Uniti

Tipi di semantica basati su riferimenti

Il riconoscimento dei tipi di semantica dipende dalla knowledge base di riferimento caricata fornita con il servizio.

Vengono forniti suggerimenti basati sui riferimenti per i tipi di semantica seguenti:

  • Nomi di paese
  • Codici di paese
  • Nomi di stato (province)
  • Codici di stato
  • Nomi di contea (giurisdizioni)
  • Nomi di città (nomi localizzati)
  • Codici postali

Arricchimenti consigliati

Gli arricchimenti consigliati si basano sui tipi di semantica.

Gli arricchimenti vengono determinati in base alla gerarchia delle posizioni geografiche:

  • Paese
  • Provincia (stato)
  • Giurisdizione (contea)
  • Longitudine
  • Latitudine
  • Popolazione
  • Elevazione (in metri)
  • Fuso orario
  • Codici paese ISO
  • FIPS (Federal Information Processing Series)
  • Nome paese
  • Capitale
  • Continente
  • ID GeoNames
  • Lingue parlate
  • Prefisso telefonico paese
  • Formato codice postale
  • Pattern codice postale
  • Prefisso telefonico paese
  • Nome valuta
  • Abbreviazione valuta
  • Dominio geografico di primo livello (GeoLTD)
  • KM quadrati

Soglie richieste

Il processo di profiling utilizza soglie specifiche per le decisioni relative a determinati tipi di semantica.

Come regola generale, l'85% dei valori dei dati della colonna deve soddisfare i criteri per un solo tipo di semantica affinché il sistema possa determinare la classificazione. Una colonna che contiene il 70% di nomi e il 30% di informazioni di "altro" tipo, ad esempio, non soddisfa i requisiti di soglia, pertanto i suggerimenti non verrebbero generati.

Suggerimenti della Knowledge Base personalizzata

Utilizzare i suggerimenti di Knowledge Base personalizzata per incrementare la Knowledge Base di sistema di Oracle Analytics. Una Knowledge Base personalizzata consente al profiler semantico di Oracle Analytics di identificare ulteriori tipi semantici relativi alle attività aziendali e di offrire suggerimenti di arricchimento più pertinenti e controllati. Ad esempio, è possibile aggiungere un riferimento a una Knowledge Base personalizzata che classifichi un medicinale vendibile su prescrizione nelle categorie della farmacopea statunitense (USP) Analgesici o Oppioide.

Icona Esercitazione Esercitazione