Klargjøre dokumenter for analyse med en OCI Document Understanding-modell

Du bruker båser i OCI Object Storage til å lagre dokumentene du vil analysere, og deretter oppretter du et datasett som gir deg tilgang til disse dokumentene i Oracle Analytics.

Du lagrer vanligvis inndatadokumenter og AI-modeller i samme Oracle Cloud-konto (leieforhold), noe som gjør oppsettet enklere i Oracle Analytics.

Hvis inndatadokumentene og AI-modellene er lagret i ulike leieforhold:
  • Sørg for at synligheten av lagringsbåsen som inneholder inndatadokumentene, er satt til Offentlig. Se Endre synligheten til en bås.
  • Fyll ut datasettet for inndata for dataflyten med URL-adresser for dokumenter enkeltvis i stedet for én URL-adresse for OCI-båsen der dokumentene er lagret.
Dataflyter i Oracle Analytics kan behandle opptil 10 000 dokumenter for forhåndsopplærte modeller og 2 000 dokumenter for egendefinerte modeller i én kjøring. Hvis du har flere enn det maksimale antallet dokumenter som kan behandles i én kjøring, oppretter du flere båser i OCI Object Storage og Archive Storage som hver inneholder færre enn det maksimale antallet dokumenter. Deretter oppretter du et separat datasett og en separat dataflyt for hver bås og bruker en sekvens til å behandle dataflytene sekvensielt.

Du kan bruke en privat eller offentlig bås som er tilgjengelig for OCI-brukeren, og som overholder OCIs generelle grenser for dokumenter. Se OCI-dokumentasjonen.

  1. Naviger til Objektlagring og arkivlagring i OCI-konsollen, og opprett en bås for lagring av dokumentene.

  2. Klikk på et båsnavn i området Objektlagring og arkivlagring, gå til Objekter, klikk på Last opp, og last opp dokumentene dine.
    Kontroller at båsen ikke inneholder noen overflødige filer du ikke vil behandle. Oracle Analytics behandler hver fil i båsen.
  3. Legg til URL-adressen for hver enkelt bås i en kommadelt fil (CSV).
    1. Velg båsen i Objektlagring for å vise dokumentene i dialogboksen Objekter.
    2. Kopier URL-adressen fra URL-adressefeltet i nettleseren.
    3. Opprett en CSV-fil med felt for ID, Bucket Name og Bucket URL.
    4. Lim inn URL-adressen for båsen som verdi for Bucket URL.
      Hvis inndatadokumentene og AI-modellene er lagret i ulike leieforhold, legger du dem til enkeltvis i CSV-filen.
      Opprett en CSV-fil med felt for ID, Dokumentnavn og URL-adresse for dokument. For hvert dokument i objektlagringen klikker du på ellipseikonet ellipseikon og velger Vis objektdetaljer. Deretter kopierer du verdien for Navn og verdien for URL-bane (URI).

      Lim inn verdien for Navn i Dokumentnavn, og lim inn verdien for URL-bane (URI) i URL-adresse for dokument.

  4. Klikk på Opprett og deretter Datasett for hver bås du bruker til å lagre dokumentene i Oracle Analytics.
  5. Last opp CSV-filen du opprettet i trinn 3, og lagre datasettet.
    Gjenta trinn 4 og 5 for hver bås. Hvis du har flere enn 10 000 dokumenter, oppretter du flere båser med opptil 10 000 dokumenter og oppretter et separat datasett for hver bås.