Asiakirjojen valmistelu OCI Document Understanding -mallilla tehtävään analyysiin

Voit tallentaa asiakirjat, joita haluat analysoida, OCI Object Storagen säilöihin ja luoda sitten tietojoukon asiakirjojen käyttöä varten Oracle Analytics -palvelussa.

Tavallisesti syöteasiakirjat ja tekoälymallit tallennetaan samaan Oracle Cloud -tiliin (asiakastiliin), joten asetusten määrittäminen on helpompaa Oracle Analytics -palvelussa.

Jos syöteasiakirjat ja tekoälymallit on tallennettu eri asiakastileihin:
  • Varmista, että syöteasiakirjat sisältävän tallennustilan säilön näkyvyysasetuksena on julkinen. Katso kohta Muuta säilön näkyvyyttä.
  • Täytä syötetietojoukko tietovirtaan käyttäen yksittäisten asiakirjojen URL-osoitteita sen sijaan, että käytät asiakirjat sisältävän OCI-säilön URL-osoitetta.
Oracle Analyticsin tietovirrat voivat käsitellä yhdessä ajossa enimmillään 10°000 asiakirjaa valmiiksi koulutetuille malleille ja 2°000 asiakirjaa mukautetuille malleille. Jos asiakirjojen määrä ylittää yhdessä ajossa käsiteltävien asiakirjojen enimmäismäärän, luo OCI-konsolin Object Storage & Archive Storage -kohdassa useita säilöjä, joista jokainen sisältää enintään enimmäismäärän asiakirjoja. Luo sitten erillinen tietojoukko ja tietovirta kullekin säilölle ja käsittele tietovirrat peräkkäin käyttämällä Järjestys-toimintoa.

Säilö voi olla yksityinen tai julkinen säilö, joka on OCI-käyttäjän käytettävissä ja on asiakirjoja koskevien OCI:n yleisten rajoitusten mukainen. Katso OCI-dokumentaatio.

  1. Siirry OCI-konsolissa kohtaan Object Storage & Archive Storage, ja luo säilö asiakirjojen tallennusta varten.

  2. Napsauta Object Storage & Archive Storage -tallennustilassa säilön nimeä ja valitse sitten sivun Objektit -osasta Lataa ja lataa asiakirjat.
    Varmista, että säilössä ei ole ylimääräisiä tiedostoja, joita ei ole tarkoitus käsitellä. Oracle Analytics käsittelee kaikki säiliössä olevat tiedostot.
  3. Lisää kunkin säilön URL-osoite CSV-tiedostoon.
    1. Näytä asiakirjat Objektit-valintaikkunassa valitsemalla säilö objektiperusteisessa tallennustilassa.
    2. Kopioi URL-osoite selaimen osoiteriviltä.
    3. Luo CSV-tiedosto, jossa on seuraavat kentät: ID (tunniste), Bucket Name (säilön nimi) ja Bucket URL (säilön URL).
    4. Liitä säilön URL CSV-tiedostoon Bucket URL -kentän arvoksi.
      Jos syöteasiakirjat ja tekoälymallit on tallennettu eri asiakastileihin, lisää ne yksitellen CVS-tiedostoon.
      Luo CSV-tiedosto, jossa on seuraavat kentät: ID (tunniste), Document Name (asiakirjan nimi) ja Document ID (asiakirjan tunniste). Napsauta jokaisen objektiperusteisessa tallennustilassa olevan asiakirjan kohdalla ellipsikuvaketta ellipsikuvake, valitse Katso objektin tiedot ja kopioi Nimi-arvo ja URL-polku (URI) -arvo.

      Liitä Nimi-arvo asiakirjan nimeksi ja URL-polku (URI) -arvo asiakirjan URL-osoitteeksi.

  4. Valitse Oracle Analytics -palvelussa jokaisen asiakirjoja sisältävän säilön kohdalla Luo ja sitten Tietojoukko.
  5. Lataa vaiheessa 3 luomasi CSV-tiedosto palvelimeen ja tallenna tietojoukko.
    Toista kohdat 4 ja 5 kunkin säilön kohdalla. Jos asiakirjoja on enemmän kuin 10 000, luo useita säilöjä, joissa jokaisessa on enintään 10 000 asiakirjaa. Luo tämän jälkeen erillinen tietojoukko kullekin säilölle.