Použitie modelu analýzy podobnosti v dátach

Pomocou dátového toku môžete použiť analýzu podobnosti na dáta a identifikovať záznamy, ktoré sú podobné danému záznamu.

Skôr než začnete, skontrolujte, či spĺňate predpoklady na vykonanie tohto typu analýzy. Pozrite si časť Predpoklady na vykonanie analýzy podobnosti v službe Oracle Analytics.
  1. Na domovskej stránke kliknite na položku Vytvoriť a potom kliknite na položku Dátový tok.
  2. V dialógovom okne Pridať dáta vyberte množinu dát a potom kliknite na položku Pridať.

    Je potrebné, aby ste používali databázu Oracle Database alebo Oracle Autonomous AI Lakehouse V23ai alebo novšiu.

  3. V zozname stĺpcov zrušte výber stĺpcov, ktoré nechcete analyzovať (predvolene sú všetky stĺpce vybrané). Je potrebné zahrnúť stĺpec s jednoznačným ID. Odporúčame vybrať 10 až 15 stĺpcov. Ak vyberiete viac ako 15 stĺpcov, môže to nepriaznivo ovplyvniť výkon.

  4. Prejdite kurzorom nad uzol množiny dát, vyberte položku Pridať krok a potom kliknite na položku Analýza podobnosti.

  5. Vyberte model, ktorý sa má použiť, a potom kliknite na tlačidlo OK.

  6. Rozbaľte sekciu Výstupy a vyberte položku Profile_expression.
    Takto sa pridá stĺpec zreťazeného výstupu všetkých vybraných dát.
  7. Rozbaľte sekciu Parametre.

  8. Nakonfigurujte parametre:
    • Zdroj - kliknite na položku Vybrať hodnotu, potom vyberte dátový stĺpec a hodnotu na jednoznačnú identifikáciu záznamu, ktorý chcete porovnať s ostatnými v množine dát. Môžete napríklad zadať ID a vybrať pacienta s ID 100002.
    • Horné (najbližšie) alebo Dolné (najvzdialenejšie) - ak chcete nájsť najviac podobné záznamy, vyberte „Horné“, ak chcete nájsť najmenej podobné záznamy, vyberte „Dolné“.
    • Počet výsledkov - zadajte počet zhodných záznamov, ktoré sa majú vrátiť. Ak napríklad chcete nájsť prvých 100 zhodných záznamov, ktoré sú najbližšie k cieľovému záznamu, vyberte hodnotu 100.
    • (Voliteľné) Referenčný stĺpec 1, 2 a 3 - zadajte stĺpec alebo kombináciu stĺpcov jednoznačne identifikujúcich záznamy, s ktorými porovnávate hodnotu v poli Zdroj. Napríklad pre zdravotníckych pacientov môžete vybrať „ID“, „Vek“ a „Liečba“. Nevyžaduje sa výber v referenčných stĺpcoch.
    • Zahrnúť referenčné stĺpce na profilovanie – vyberte voľbu Nie, ak chcete z profilovania vylúčiť referenčné stĺpce zadané v položke Referenčný stĺpec 1, 2 a 3, alebo vyberte voľbu Áno, ak ich chcete zahrnúť do profilovania.
  9. Kliknite na tlačidlo + vedľa uzla Analýza podobnosti v diagrame, potom kliknite na tlačidlo Pridať krok a vyberte položku Uložiť dáta.
  10. Nakonfigurujte krok Uložiť dáta:

    • Množina dát - zmeňte predvolenú hodnotu na zmysluplnejší názov. Napríklad „Analýza podobnosti - prvých 10“.
    • Tabuľka - nemeňte predvolenú hodnotu. Služba Oracle Analytics vytvorí pri spustení dátového toku novú hodnotu na základe názvu zadaného v poli Množina dát.
    • (Voliteľné) Predvolená agregácia - zmeňte predvolenú agregáciu. Môžete ju napríklad zmeniť na priemer.
  11. Kliknite na položku Uložiť model a zadajte názov generovaného prediktívneho modelu.
  12. Kliknite na položku Uložiť a zadajte názov dátového toku.
  13. Kliknutím na položku Spustiť analyzujte dáta a vygenerujte prediktívny model.
Množinu dát, ktorú služba Oracle Analytics vygeneruje, nájdete na stránke Dáta na karte Množina dát. Pozrite si časť Interpretácia výsledkov z modelu analýzy podobnosti.