Databaseanalysefuncties

Met databaseanalysefuncties kunt u uitgebreide analysen en datamininganalysen uitvoeren, bijvoorbeeld om anomalieën te detecteren, gegevens te clusteren, steekproeven van gegevens te nemen en affiniteitsanalysen te verrichten. Analysefuncties zijn beschikbaar wanneer u verbinding maakt met een Oracle database of Oracle Autonomous Data Warehouse.

Pictogram voor zelfstudie LiveLabs Sprint

Als u de stap Analyse database in de gegevensstroomeditor wilt weergeven, moet u verbinding maken met een Oracle database of Oracle Autonomous Data Warehouse.

Functietypen Beschrijving

Dynamische anomaliedetectie

Anomalieën in invoergegevens detecteren zonder vooraf gedefinieerd model. U wilt bijvoorbeeld ongebruikelijke financiële transacties markeren.

Als u deze functie implementeert met grote gegevenssets, moet u de partitiekolommen configureren om de prestaties te optimaliseren.

Dynamisch clusteren

Invoergegevens clusteren zonder vooraf gedefinieerd model. U wilt bijvoorbeeld klantsegmenten karakteriseren en ontdekken voor marketingdoeleinden.

Als u deze functie implementeert met grote gegevenssets, moet u de partitiekolommen configureren om de prestaties te optimaliseren.

Frequente itemset

Ontdek relaties tussen uw gegevens door itemsets te identificeren die vaak samen voorkomen. Deze dataminingtechniek wordt ook wel leren met koppelingsregels of affiniteitsanalyse genoemd, of Market Basket-analyse in de detailhandel. Door frequente itemsets te gebruiken als Market Basket-analysehulpmiddel kunt u bijvoorbeeld ontdekken dat klanten die shampoo kopen ook conditioner kopen.

Dit is een bewerking met intensief resourcegebruik en de prestaties zijn afhankelijk van diverse factoren, zoals het volume van de invoergegevensset, de cardinaliteit van de transactie-ID en de cardinaliteit van de kolom met itemwaarden. Om mogelijke prestatiedegradatie in de database te vermijden, kunt u proberen de bewerking uit te voeren met een hoger minimaal ondersteuningspercentage (de standaardwaarde is 0,25). Vervolgens verlaagt u dit percentage geleidelijk om zo meer itemsets op te nemen in de uitvoer.

Steekproeven van gegevens nemen

Hiermee selecteert u een willekeurig percentage van de gegevens uit een tabel. U hoeft alleen maar aan te geven van welk percentage van de gegevens u een steekproef wilt nemen. U wilt bijvoorbeeld van tien procent van uw gegevens een willekeurige steekproef nemen.

Tokenisering van tekst

Analyseer tekstgegevens door deze op te delen in afzonderlijke woorden en te tellen hoe vaak elk woord voorkomt. Wanneer u een gegevensstroom uitvoert, maakt Oracle Analytics een tabel met de naam DR$IndexName$I in de database. Deze tabel bevat de tokentekst en de details met betrekking tot de tokentelling. Gebruik de tabel DR$IndexName$I om een gegevensset te maken.

  • Gebruik onder Uitvoer, de optie Maken naast elk veld om de kolommen te selecteren die u wilt indexeren.

  • Klik onder Parameters en vervolgens Tekstkolom op Een kolom selecteren om het veld te selecteren dat u wilt opdelen in afzonderlijke woorden. Gebruik de opties Referentiekolom<number> om een of meer kolommen op te nemen in de uitvoergegevensset. Gebruik de optie 'Speciale taallexer gebruiken' om specifieke talen, zoals Chinees, Deens, Nederlands, Engels, Fins, Duits, Noors, Japans, Koreaans en Zweeds, te selecteren voor speciale lexers. Raadpleeg Oracle Database documentatie voor meer details over ondersteunde talen.

De databaseverbinding die u gebruikt voor uw gegevensstroom moet speciale databaserechten hebben. Informeer bij de beheerder of:
  • Uw databaseaccount beschikt over grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • U een Oracle Analytics-verbinding gebruikt met dezelfde gebruikersnaam als het schema waarin de brontabel voorkomt. Dit is de beste aanpak om problemen met toegangsrechten te voorkomen terwijl de gegevensstroom wordt uitgevoerd.
  • De databasetabelkolom die u analyseert geen bestaande CONTEXT-index heeft. Als de databasetabel die u analyseert wel een bestaande CONTEXT-index heeft, verwijdert u die index voordat u de gegevensstroom voor de tokenisering van tekst uitvoert.

Tijdreeksen

Tijdreeksen is een dataminingtechniek waarmee doelwaarden worden voorspeld op basis van een bekende historie van doelwaarden. Voor de tijdreeksanalyse wordt een reeks doelwaarden ingevoerd. De analyse biedt schattingen van de doelwaarde voor elke periode van een tijdvenster. Dit tijdvenster mag maximaal 30 perioden na de historische gegevens omvatten.

Met het model worden ook verschillende statistieken berekend waarmee de geschiktheid voor historische gegevens wordt gemeten. Deze statistieken zijn via een parameterinstelling beschikbaar als extra uitvoergegevensset.

Opmerking: het tijdreeksalgoritme is alleen beschikbaar vanaf Oracle Database versie 18c.

Draaien van gegevens ongedaan maken

Hiermee zet u gegevens die in kolommen zijn opgeslagen om naar een indeling in rijen. U wilt bijvoorbeeld meerdere kolommen met voor elk jaar de metrische waarde 'Opbrengsten' omzetten naar één kolom 'Opbrengsten' met meerdere waarderijen voor de dimensie 'Jaar'. U selecteert eenvoudigweg de metrickolommen die u wilt omzetten en geeft een naam op voor de nieuwe kolom. Het resultaat is een nieuwe gegevensset met minder kolommen en meer rijen.

Opmerking: als u analysefuncties wilt gebruiken, moeten deze zijn geactiveerd door de beheerder (zie 'Console, geavanceerd systeeminstellingen, prestaties en compatibiliteit, node voor database-analyse in gegevensstromen activeren').