Overzicht van het uitvoeren van een similariteitsanalyse in Oracle Analytics

In Oracle Analytics kunt u similariteitsanalyses uitvoeren op uw gegevens met behulp van verschillende vectorinsluitingsmodellen. Met een similariteitsanalyse kunt u meten in welke mate twee of meer objecten, gegevenssets, documenten of patronen overeenstemmen (soortgelijk zijn), op basis van bepaalde criteria of metrics.

U wilt bijvoorbeeld vragen beantwoorden zoals:
  • Welke patiënten hebben soortgelijke symptomen als een specifieke patiënt?
  • Welke klanten hebben een vergelijkbaar profiel met een bepaalde klant?
  • Welke verzekeringsclaims hebben een vergelijkbaar profiel met een bepaalde verzekeringsclaim?

Hoe werkt het?

In Oracle Database V23ai of later wordt het zoeken naar vectoren en SQL-functies om de afstand tussen vectoren te berekenen ondersteund. Hiermee wordt de mate van overeenkomst tussen gegevensrecords gekwantificeerd. In Oracle Analytics wordt achter de schermen gebruikgemaakt van zoeken naar vectors om een similariteitsanalyse uit te voeren op gegevenssets.

Prestatieoverwegingen

De verwerkingstijd voor similariteitsanalysen is afhankelijk van:
  • Het aantal rijen in uw brongegevensset.
  • Het aantal kolommen dat u selecteert voor gebruik in uw gegevensstroom. Niet alle kolommen in uw brongegevensset worden gebruikt in uw model voor similariteitsanalyses. U wordt aangeraden tussen de 10 en 15 kolommen te gebruiken. Als u meer dan 15 kolommen selecteert, kan dit een negatieve invloed hebben op de prestaties van de stroom die u gebruikt om het model toe te passen.
  • Het aantal ECPU's dat is toegewezen aan uw Oracle Autonomous AI Lakehouse instance

Voor stromen geldt een time-outlimiet van 2,5 uur, wat de hoeveelheid gegevens bepaalt die kan worden verwerkt.