Profili di dati e suggerimenti semantici

Quando si crea un data set, Oracle Analytics effettua il profiling a livello di colonna per generare un set di suggerimenti semantici finalizzato a riparare o arricchire i dati. Quando si creano cartelle di lavoro, è possibile includere gli arricchimenti Knowledge Base nelle visualizzazioni aggiungendole dal Pannello dati.

Nota:

Gli arricchimenti Knowledge Base sono in genere abilitati per impostazione predefinita, ma gli editor di cartelle di lavoro possono abilitarli o disabilitarli per i data set di cui sono proprietari o per i quali dispongono di privilegi di modifica. Oracle Analytics non fornisce automaticamente suggerimenti di arricchimento per i data set generati da un flusso di dati. In questo caso, il proprietario o l'amministratore del data set deve prima abilitare l'opzione relativa agli arricchimenti Knowledge Base per il data set. Vedere Abilitare gli arricchimenti Knowledge Base per i data set.

Tali suggerimenti si basano sul sistema di rilevamento automatico di un tipo di semantica specifica durante il passo di profilo. Ad esempio, per i data set basati su aree argomenti locali viene effettuato il profiling utilizzando un campione Primi N semplice.

Esistono categorie di tipi di semantica: aree geografiche identificate dai nomi di città, pattern riconoscibili come nelle carte di credito, indirizzi di posta elettronica e numeri di previdenza sociale, date e pattern ricorrenti. È inoltre possibile creare propri tipi di semantica personalizzati.

Categorie dei tipi di semantica

Ai vari tipi di semantica viene applicato il profiling.

Le categorie dei tipi di semantica vengono sottoposte a profiling per identificare:

  • aree geografiche, ad esempio i nomi delle città;
  • pattern, ad esempio quelli dei numeri delle carte di credito o degli indirizzi di posta elettronica;
  • pattern ricorrenti, ad esempio dati di un'espressione con trattini.

Suggerimenti sui tipi di semantica

I suggerimenti per correggere, migliorare o arricchire il data set dipendono dal tipo dei dati.

Esempi di suggerimenti per i tipi di semantica

  • Arricchimenti: aggiunta di una nuova colonna ai dati corrispondente a un tipo specifico rilevato, ad esempio un'area geografica. Ad esempio, l'aggiunta dei dati relativi alla popolazione per un città.
  • Concatenazione di colonne: quando nel data set vengono rilevate due colonne, una contenente i nomi e l'altra i cognomi, il sistema consiglia di concatenare i nomi in un'unica colonna. Ad esempio, una colonna first_name_last_name.
  • Estrazioni semantiche: quando un tipo di semantica è composto da sottotipi, ad esempio un numero us_phone che include il prefisso della città, il sistema consiglia di estrarre il sottotipo nella rispettiva colonna.
  • Estrazione di parti: quando viene rilevata la presenza di un separatore di pattern generico nei dati, il sistema consiglia di estrarne le parti. Ad esempio se il sistema rileva una sillabazione ripetuta nei dati, consiglia di estrarre le parti in colonne separate per rendere i dati potenzialmente più utili per l'analisi.
  • Estrazioni di date: quando vengono rilevate le date, il sistema consiglia di estrarre le parti della data che potrebbero aumentare l'analisi dei dati. Ad esempio, è possibile estrarre il giorno della settimana dalla data di fatturazione o di acquisto.
  • Offuscamento/mascheramento completo e parziale/eliminazione: quando vengono rilevati campi con informazioni riservate, quale un numero di carta di credito, il sistema consiglia il mascheramento completo o parziale, o anche la rimozione, della colonna.

Tipi di semantica basati su pattern riconosciuti

I tipi di semantica vengono identificati in base ai pattern trovati nei dati.

Vengono forniti suggerimenti per i tipi di semantica seguenti:

  • Date (in più di 30 formati)
  • Numeri di previdenza sociale USA (SSN)
  • Numeri di carta di credito
  • Attributi di carta di credito (CVV e data di scadenza)
  • Indirizzi di posta elettronica
  • Numeri di telefono piano per il Nord America
  • Indirizzi degli Stati Uniti

Tipi di semantica basati su riferimenti

Il riconoscimento dei tipi di semantica dipende dalla knowledge base di riferimento caricata fornita con il servizio.

Vengono forniti suggerimenti basati sui riferimenti per i tipi di semantica seguenti:

  • Nomi di paese
  • Codici di paese
  • Nomi di stato (province)
  • Codici di stato
  • Nomi di contea (giurisdizioni)
  • Nomi di città (nomi localizzati)
  • Codici postali

Arricchimenti consigliati

Gli arricchimenti consigliati si basano sui tipi di semantica.

Gli arricchimenti vengono determinati in base alla gerarchia delle posizioni geografiche:

  • Paese
  • Provincia (stato)
  • Giurisdizione (contea)
  • Longitudine
  • Latitudine
  • Popolazione
  • Elevazione (in metri)
  • Fuso orario
  • Codici paese ISO
  • FIPS (Federal Information Processing Series)
  • Nome paese
  • Capitale
  • Continente
  • ID GeoNames
  • Lingue parlate
  • Prefisso telefonico paese
  • Formato codice postale
  • Pattern codice postale
  • Prefisso telefonico paese
  • Nome valuta
  • Abbreviazione valuta
  • Dominio geografico di primo livello (GeoLTD)
  • KM quadrati

Soglie richieste

Il processo di profiling utilizza soglie specifiche per le decisioni relative a determinati tipi di semantica.

Come regola generale, l'85% dei valori dei dati della colonna deve soddisfare i criteri per un solo tipo di semantica affinché il sistema possa determinare la classificazione. Una colonna che contiene il 70% di nomi e il 30% di informazioni di "altro" tipo, ad esempio, non soddisfa i requisiti di soglia, pertanto i suggerimenti non verrebbero generati.

Suggerimenti della Knowledge Base personalizzata

Utilizzare i suggerimenti di Knowledge Base personalizzata per incrementare la Knowledge Base di sistema di Oracle Analytics. Una Knowledge Base personalizzata consente al profiler semantico di Oracle Analytics di identificare ulteriori tipi semantici relativi alle attività aziendali e di offrire suggerimenti di arricchimento più pertinenti e controllati. Ad esempio, è possibile aggiungere un riferimento a una Knowledge Base personalizzata che classifichi un medicinale vendibile su prescrizione nelle categorie della farmacopea statunitense (USP) Analgesici o Oppioide.

Icona Esercitazione Esercitazione

Chiedere all'amministratore di caricare i file della Knowledge Base personalizzata in Oracle Analytics. Quando si arricchiscono i data set, Oracle Analytics visualizza suggerimenti di arricchimento basati sui dati semantici forniti. Quando si creano cartelle di lavoro, è possibile includere gli arricchimenti Knowledge Base nelle visualizzazioni aggiungendole dal Pannello dati.

Creazione di propri file di Knowledge Base personalizzata

Durante la creazione dei file semantici, attenersi alle istruzioni riportate di seguito.

  • Creare un file di dati in formato CSV o Microsoft Excel (XLSX). La dimensione file massima che è possibile caricare è 250 MB.
  • Popolare la prima colonna con la chiave utilizzata da Oracle Analytics per definire il profilo dei dati. Ad esempio, la chiave potrebbe essere una data con la granularità del giorno per consentire l'analisi dei dati per anno fiscale.
  • Popolare le altre colonne con i valori di arricchimento.

Chiedere all'amministratore di caricare il file della Knowledge Base personalizzata in Oracle Analytics.

Esempio: integrare intervalli di tempo aziendali nei dati

In questo esempio viene illustrato come aggiungere intervalli di tempo aziendali ai dati di vendita e abilitare l'analisi delle vendite per anno fiscale se il data set originale non contiene dati fiscali.

La visualizzazione di esempio mostra le vendite per trimestre negli anni 2019, 2020, 2021, 2022 e 2023, in cui ogni anno è rappresentato in un colore diverso. Non si dispone di dati fiscali nei dati di vendita di origine, pertanto si distribuisce una Knowledge Base personalizzata aggiuntiva per aggiungere dati fiscali al data set.

In primo luogo, si preparano i dati fiscali in un file Fiscal Calendar.xlsx. Il file contiene la data (gg-mm-aaaa), l'anno fiscale, il mese fiscale e la settimana fiscale. Ad esempio, il file di origine potrebbe avere 01-23-2025 nella colonna della data, 2025 nella colonna dell'anno fiscale e gli attributi per completare le colonne rimanenti.

Chiedere all'amministratore di caricare Fiscal Calendar.xlsx nell'area della Knowledge Base personalizzata nella console.

Sarà quindi possibile creare un data set contenente Vendite e ORDER_DATE e nell'editor di data set selezionare Arricchisci ORDER_DATE con Anno fiscale e Arricchisci ORDER_DATE con Mese fiscale nei suggerimenti di arricchimento. Oracle Analytics aggiunge questi due arricchimenti al data set.

Infine, si crea una cartella di lavoro e si aggiungono Anno fiscale, Trimestre fiscale (sotto ORDER_DATE) e Vendite a una visualizzazione. Nota: è possibile aggiungere direttamente Anno fiscale e Trimestre fiscale senza dover aggiungere la colonna ORDER_DATE originale.