Pregătirea documentelor pentru analiză cu un model OCI Document Understanding

Puteţi utiliza bucketuri în Object Storage din OCI, pentru a stoca documentele pe care doriţi să le analizaţi, apoi creaţi un set de date pentru a accesa aceste documente în Oracle Analytics.

De obicei, documentele de intrare şi modelele AI sunt stocate în acelaşi cont Oracle Cloud (tenancy), ceea ce permite o configurare mai uşoară în Oracle Analytics.

Dacă documentele de intrare şi modelele AI sunt stocate în tenancy-uri diferite:
  • Verificaţi dacă vizibilitatea bucketului de stocare ce conţine documentele de intrare este publică. Consultaţi Modificaţi vizibilitatea unui bucket.
  • Populaţi setul de date de intrare pentru fluxul de date cu URL-uri individuale pentru documente, în loc de un singur URL pentru bucketul OCI unde sunt stocate documentele.
Într-o singură rulare, fluxurile de date Oracle Analytics pot procesa până la 10.000 de documente pentru modelele preinstruite şi 2.000 de documente pentru modelele personalizate. Dacă aveţi un număr de documente mai mare decât cel care poate fi procesat într-o singură rulare, creaţi mai multe bucketuri în OCI Object Storage şi Archive Storage, care să conţină fiecare numărul maxim de documente. Apoi, creaţi un set de date şi un flux de date separat pentru fiecare bucket şi utilizaţi o secvenţă pentru a procesa secvenţial fluxurile de date.

Puteţi utiliza un bucket privat sau public, care poate fi accesat de utilizatorul OCI şi care respectă limitele generice pentru documente ale OCI. Consultaţi documentaţia OCI.

  1. În consola OCI, navigaţi la Object Storage şi Archive Storage şi creaţi un bucket nou pentru a vă stoca documentele.

  2. În zona Object Storage şi Archive Storage, faceţi clic pe numele bucketului, apoi pe regiunea Obiecte de pe pagină, apoi pe Încărcare şi încărcaţi documentele.
    Asiguraţi-vă că bucketul nu conţine fişiere externe pe care nu doriţi să le procesaţi. Oracle Analytics procesează fiecare fişier din bucket.
  3. Pentru fiecare bucket, adăugaţi URL-ul bucketului într-un fişier cu valori separate prin virgule (CSV).
    1. În Object Storage, selectaţi bucketul care să afişeze documentele în dialogul Obiecte.
    2. Copiaţi URL-ul din bara de adrese a browserului.
    3. Creaţi un fişier CSV cu câmpuri pentru ID, Bucket Name şi Bucket URL.
    4. Lipiţi URL-ul bucketului în fişierul CSV ca valoare pentru Bucket URL.
      Ca alternativă, dacă stocaţi documentele de intrare şi modelele AI în tenancy-uri diferite, adăugaţi-le pe rând în fişierul CSV.
      Creaţi un fişier CSV cu câmpuri pentru ID, Document Name şi Document URL. Pentru fiecare document din Object Storage, faceţi clic pe pictograma cu puncte de suspensie pictograma Puncte de suspensie şi selectaţi Vizualizare detalii obiect, apoi copiaţi valoarea Nume şi valoarea Cale URL (URI).

      Lipiţi valoarea Nume ca Nume document şi valoarea Cale URL (URI) ca URL document.

  4. În Oracle Analytics, pentru fiecare bucket utilizat pentru stocarea documentelor, faceţi clic pe Creare, apoi pe Set de date.
  5. Încărcaţi fişierul CSV pe care l-aţi creat la pasul 3 şi salvaţi setul de date.
    Repetaţi paşii 4 şi 5 pentru fiecare bucket. Dacă aveţi mai mult de 10.000 de documente, creaţi mai multe bucketuri care să conţină cel mult 10.000 de documente fiecare şi creaţi un set de date separat pentru fiecare bucket.