Documenten voorbereiden voor analyse met een model van OCI Document Understanding

U gebruikt buckets in OCI Object Storage om de documenten op te slaan die u wilt analyseren. Vervolgens maakt u een gegevensset om deze documenten te openen in Oracle Analytics.

Invoerdocumenten en AI-modellen worden meestal in dezelfde Oracle Cloud account (tenancy) opgeslagen. Hierdoor wordt het configureren in Oracle Analytics eenvoudiger.

Als uw invoerdocumenten en AI-modellen worden opgeslagen in verschillende tenancy's:

Controleer of de zichtbaarheid van de opslagbucket met uw invoerdocumenten is ingesteld op openbaar. Zie voor meer informatie: De zichtbaarheid van een bucket wijzigen.
Vul de set met invoergegevens voor de gegevensstroom met afzonderlijke document-URL's in plaats van een enkele URL voor de OCI bucket waarin documenten worden opgeslagen.

In één run kunnen gegevensstromen van Oracle Analytics maximaal 10.000 documenten verwerken voor vooraf getrainde modellen en 2.000 documenten verwerken voor aangepaste modellen. Als u meer dan het maximale aantal documenten hebt dat in één run kan worden verwerkt, maakt u in Object Storage en Archive Storage van OCI meerdere buckets met het maximale aantal documenten of minder in iedere bucket. Maak vervolgens voor elke bucket een afzonderlijke gegevensset en gegevensstroom en gebruik daarna een reeks om meerdere gegevensstromen na elkaar te verwerken.

U kunt een privé- of openbare bucket gebruiken. De bucket moet toegankelijk zijn voor de OCI gebruiker en voldoen aan de algemene limieten voor documenten van OCI. Zie de OCI-documentatie voor meer informatie.

Navigeer in OCI console naar 'Objectopslag' & 'Archiefopslag' en maak een nieuwe bucket om uw documenten in op te slaan.

.png
Klik in het gebied Objectopslag en archiefopslag op de naam van een bucket. Ga vervolgens naar het gedeelte Objecten van de pagina, klik op Uploaden en upload uw documenten.
Zorg ervoor dat de bucket geen irrelevante bestanden bevat die u niet wilt verwerken. Elk bestand in de bucket wordt in Oracle Analytics verwerkt.

.png
Voeg voor elke bucket de bucket-URL toe aan een door komma's gescheiden bestand (csv).
1. Selecteer in Objectopslag de bucket om de documenten te tonen in het dialoogvenster 'Objecten'.
2. Kopieer de URL vanuit de URL-balk in de browser.
3. Een CSV-bestand maken met velden voor ID, Bucketnaam en Bucket-URL.
4. Plak de bucket-URL in het CSV-bestand als de waarde voor Bucket URL.
  
  .png
  
  Als uw invoerdocumenten en AI-modellen worden opgeslagen in verschillende tenancy's, voegt u ze afzonderlijk toe aan het csv-bestand.
  
  Maak een csv-bestand met velden voor ID, Documentnaam en Document-URL. Klik voor elk document in 'Objectopslag' op het pictogram met drie puntjes en selecteer Objectdetails bekijken. Kopieer de waarde van Naam en de waarde van URL-pad (URI).
  
  .png
  
  Plak de waarde van 'Naam' in 'Documentnaam' en de waarde van 'URLpad (URI)' in 'Document-URL'.
  
  .png
Klik in Oracle Analytics voor elke bucket die u gebruikt om uw documenten op te slaan, op Maken en daarna op Gegevensset.
Upload het csv-bestand dat u in stap 3 hebt gemaakt en sla de gegevensset op.
Herhaal stappen 4 en 5 voor elke bucket. Als u meer dan 10.000 documenten hebt, maak dan meerdere buckets met elk maximaal 10.000 documenten. Maak vervolgens voor elke bucket een afzonderlijke gegevensset.