Gegevensprofielen en semantische aanbevelingen

Wanneer u een gegevensset maakt, voert Oracle Analytics profielen op kolomniveau uit om een reeks semantische aanbevelingen te produceren om uw gegevens te repareren of te verrijken. Wanneer u werkmappen maakt, kunt u ook kennisverrijkingen opnemen in uw visualisaties door deze toe te voegen vanuit het deelvenster 'Gegevens'.

Opmerking:

Kennisverrijkingen zijn standaard meestal geactiveerd, maar werkmapeditors kunnen ze activeren of deactiveren voor gegevenssets waarvan ze de eigenaar zijn of waarvoor ze toegangsrechten hebben. Oracle Analytics biedt niet automatisch aanbevelingen voor verrijking voor gegevenssets die zijn gegenereerd op basis van een gegevensstroom. In dit geval moet de eigenaar of beheerder van de gegevensset eerst de optie voor kennisverrijkingen activeren voor de gegevensset. Zie voor meer informatie: Kennisverrijkingen activeren voor gegevenssets.

Deze aanbevelingen zijn gebaseerd op automatische detectie van een specifiek semantisch type tijdens de profielstap. Datasets gebaseerd op lokale onderwerpgebieden worden bijvoorbeeld geprofileerd met behulp van een eenvoudige Top N-monster.

Er zijn verschillende categorieën semantische soorten, zoals geografische locaties die door stedennamen worden aangegeven, herkenbare patronen zoals in creditcardnummers, e-mailadressen en burgerservicenummers, datums en terugkerende patronen. U kunt ook uw eigen aangepaste semantische typen maken.

Semantisch type: categorieën

Op diverse semantische typen wordt profilering toegepast.

Categorieën semantische typen worden geprofileerd voor het vaststellen van:

  • Geografische locaties, zoals plaatsnamen.
  • Patronen, zoals die van creditcardnummers of e-mailadressen.
  • Terugkerende patronen, zoals bij gegevens met door afbreekstreepjes gescheiden woordgroepen.

Semantisch type: aanbevelingen

Aanbevelingen voor reparatie, verbetering of verrijking van de gegevensset worden gedaan op basis van het type gegevens.

Voorbeelden van aanbevelingen op basis van semantische typen:

  • Verrijkingen: een nieuwe kolom aan de gegevens toevoegen die overeenkomt met een specifiek gedetecteerd type, zoals een geografische locatie. Bijvoorbeeld inwonersgegevens toevoegen voor een stad.
  • Samenvoeging van kolommen: wanneer er in de gegevensset twee kolommen worden gedetecteerd waarvan de ene voornamen bevat en de andere achternamen, wordt aanbevolen de namen tot één kolom samen te voegen. Bijvoorbeeld de kolom voornaam_achternaam.
  • Semantische extracties: wanneer een semantisch type is samengesteld uit subtypen, bijvoorbeeld een Amerikaans_telefoonnummer waarin een kengetal is opgenomen, wordt aanbevolen het subtype te extraheren en dit in een eigen kolom te plaatsen.
  • Extractie van gedeelten: als in de gegevens een generiek patroonscheidingsteken wordt gedetecteerd, wordt aanbevolen gedeelten van dat patroon te extraheren. Als in de gegevens bijvoorbeeld herhaalde afbreekstreepjes worden gedetecteerd, wordt aanbevolen de door streepjes gescheiden gedeelten te extraheren en in afzonderlijke kolommen te plaatsen, waardoor de bruikbaarheid van de gegevens voor analyse mogelijk wordt vergroot.
  • Datumextracties: wanneer er datums worden gedetecteerd, wordt aanbevolen gedeelten van de datum te extraheren waarmee de analyse van de gegevens kan worden verbeterd. U kunt bijvoorbeeld de weekdag extraheren uit een factuur- of inkoopdatum.
  • Volledige of gedeeltelijke versluiering/maskering/verwijdering: wanneer er gevoelige gegevens worden gedetecteerd, zoals een creditcardnummer, wordt aanbevolen de kolom volledig of gedeeltelijk te maskeren of zelfs te verwijderen.

Herkende, op een patroon gebaseerde semantische typen

Semantische typen worden geïdentificeerd op basis van patronen in uw gegevens.

Er worden aanbevelingen gedaan voor deze semantische typen:

  • Datums (in meer dan 30 notaties)
  • Burgerservicenummers VS
  • Creditcardnummers
  • Creditcardattributen (verificatiecode en vervaldatum)
  • E-mailadressen
  • Telefoonnummers volgens Noord-Amerikaans nummersysteem
  • Adressen VS

Op referenties gebaseerde semantische typen

Semantische typen worden herkend op basis van geladen referentie-informatie die bij de service wordt geleverd.

Voor de volgende semantische typen worden aanbevelingen op basis van referentie-informatie gedaan:

  • Landnamen
  • Landcodes
  • Staatnamen (provincies)
  • Staatcodes
  • Districtnamen (rechtsgebieden)
  • Stedennamen (gelokaliseerde namen)
  • Postcodes

Aanbevolen verrijkingen

Aanbevolen verrijkingen zijn afhankelijk van de semantische typen.

Verrijkingen worden vastgesteld op basis van de hiërarchie van geografische locaties:

  • Land
  • Provincie (staat)
  • Rechtsgebied (district)
  • Lengtegraad
  • Breedtegraad
  • Populatie
  • Hoogte t.o.v. zeeniveau (in meter)
  • Tijdzone
  • ISO-landcodes
  • Federal Information Processing Series (FIPS)
  • Landnaam
  • Hoofdstad
  • Werelddeel
  • GeoNames-ID
  • Gesproken talen
  • Landcode telefoon
  • Notatie postcode
  • Patroon postcode
  • Landcode telefoon
  • Valutanaam
  • Afkorting valutanaam
  • Geografisch domein op hoogste niveau (GeoLTD)
  • Vierkante km

Aanbevolen drempelwaarden

Bij het profileringsproces worden specifieke drempels gebruikt voor het nemen van beslissingen over specifieke semantische typen.

Een algemene regel is dat voor het bepalen van de classificatie 85% van de gegevenswaarden in de kolom aan de criteria voor één semantisch type moet voldoen. Een kolom die 70% voornamen en 30% 'overig' bevat, voldoet dus niet aan de drempelwaardevereisten. In dat geval worden er geen aanbevelingen gedaan.

Aanbevelingen van aangepaste kennisbanken

Vergroot de kennis van het Oracle Analytics systeem met behulp van de aanbevelingen van aangepaste kennisbanken. Met behulp van aangepaste kennisbanken kan de semantische profiler van Oracle Analytics meer bedrijfsspecifieke semantische typen identificeren en relevantere, meer gerichte verrijkingsaanbevelingen doen. U kunt bijvoorbeeld een verwijzing van een aangepaste kennisbank toevoegen waarmee voorgeschreven medicatie wordt geclassificeerd in de USP-geneesmiddelcategorie 'Analgetica' of 'Opioïde'.

Pictogram voor zelfstudie Zelfstudie

Vraag de beheerder om bestanden van aangepaste kennisbanken te uploaden naar Oracle Analytics. Wanneer u gegevenssets verrijkt, worden in Oracle Analytics verrijkingsaanbevelingen weergegeven op basis van deze semantische gegevens. Wanneer u werkmappen maakt, kunt u ook kennisverrijkingen opnemen in uw visualisaties door deze toe te voegen vanuit het deelvenster 'Gegevens'.

Uw eigen bestanden van aangepaste kennisbanken maken

Volg deze richtlijnen als u semantische bestanden maakt:

  • Maak een gegevensbestand in CSV- of Microsoft Excel XLSX-indeling. U kunt bestanden met een maximale grootte van 250 MB uploaden.
  • Vul de eerste kolom met de sleutel waarmee gegevens in Oracle Analytics worden geprofileerd. De sleutel kan bijvoorbeeld een datum met dagaanduiding zijn om gegevens per boekjaar te kunnen analyseren.
  • Vul de andere kolommen met de verrijkingswaarden.

Vraag de beheerder om uw bestand van een aangepaste kennisbank te uploaden naar Oracle Analytics.

Voorbeeld: zakelijke tijdsbestekken in uw gegevens integreren

In dit voorbeeld ziet u hoe u zakelijke tijdsbestekken aan verkoopgegevens kunt toevoegen en de analyse van verkoop per boekjaar kunt activeren als de oorspronkelijke gegevensset geen fiscale gegevens bevat.

In de voorbeeldvisualisatie wordt de verkoop per kwartaal weergegeven in de jaren 2019, 2020, 2021, 2022 en 2023, waarbij elk jaar wordt weergegeven in een andere kleur. Uw bronverkoopgegevens bevatten geen fiscale gegevens. Daarom implementeert u aanvullende aangepaste kennis om fiscale gegevens aan uw gegevensset toe te voegen.

Eerst bereidt u fiscale gegevens voor in een bestand Fiscal Calendar.xlsx. Uw bestand bevat datum (mm-dd-jjjj), boekjaar, boekmaand en boekweek. Het bronbestand kan bijvoorbeeld 23-01-2025 bevatten in de datumkolom, 2025 in de kolom 'Boekjaar' en de attributen om de resterende kolommen te voltooien.

Vraag de beheerder om Fiscal Calendar.xlsx te uploaden naar het aangepaste kennisgebied in de console.

Vervolgens maakt u een gegevensset met verkoop en ORDER_DATE en selecteert u in de gegevensseteditor ORDER_DATE verrijken met boekjaar en ORDER_DATE verrijken met boekmaand in de verrijkingsaanbevelingen. In Oracle Analytics worden deze twee verrijkingen toegevoegd aan de gegevensset.

Ten slotte maakt u een werkmap en voegt u Boekjaar en Boekkwartaal (onder ORDER_DATE) en Verkoop toe aan een visualisatie. Opmerking: u kunt Boekjaar en Boekkwartaal rechtstreeks toevoegen zonder dat u de oorspronkelijke kolom ORDER_DATE hoeft toe te voegen.