Preparare i documenti da analizzare con un modello OCI Document Understanding

Utilizzare i bucket in Storage degli oggetti dell'infrastruttura OCI per memorizzare i documenti che si desidera analizzare, quindi creare un data set per accedere ai documenti in Oracle Analytics.

In genere, i documenti di input e i modelli AI vengono memorizzati nello stesso account Oracle Cloud (tenancy), semplificandone l'impostazione in Oracle Analytics.

Se i documenti di input e i modelli AI vengono memorizzati in tenancy differenti:
  • Assicurarsi che la visibilità del bucket di memorizzazione contenente i documenti di input sia pubblica. Vedere Modificare la visibilità di un bucket.
  • Popolare il data set di input per il flusso dati con singoli URL documento anziché con un singolo URL per il bucket OCI in cui sono memorizzati i documenti.
In una singola esecuzione, i flussi di dati di Oracle Analytics possono elaborare fino a 10.000 documenti per i modelli pre-addestrati e 2.000 documenti per i modelli personalizzati. Se si dispone di un numero di documenti superiore al limite massimo che è possibile elaborare in un'unica esecuzione, in OCI Object Storage & Archive Storage, creare più bucket contenenti un numero di documenti non superiore al limite massimo in ciascuno di essi. Creare quindi un data set e un flusso dati distinti per ogni bucket e utilizzare una sequenza per elaborare in modo sequenziale i flussi di dati.

È possibile utilizzare un bucket privato o pubblico accessibile dall'utente OCI e conforme ai limiti generici di OCI sui documenti. Consultare la documentazione OCI.

  1. In OCI Console andare a Storage degli oggetti e storage di archivio e creare un nuovo bucket per memorizzare i documenti.

  2. Nell'area Storage degli oggetti e storage di archivio, fare clic su un nome bucket, quindi nell'area Oggetti della pagina fare clic su Carica e caricare i documenti.
    Assicurarsi che il bucket non contenga file estranei che non si desidera elaborare. Oracle Analytics elabora ogni file presente nel bucket.
  3. Per ogni bucket, aggiungere l'URL del bucket a un file CSV (valori separati da virgole).
    1. In Storage degli oggetti selezionare il bucket per visualizzare i documenti nella finestra di dialogo Oggetti.
    2. Copiare l'URL dalla barra dell'URL del browser.
    3. Creare un file CSV con i campi ID, Nome bucket e URL bucket.
    4. Incollare l'URL del bucket URL nel file CSV come valore URL bucket.
      In alternativa, se i documenti di input e modelli AI vengono memorizzati in tenancy differenti, aggiungerli singolarmente al file CSV.
      Creare un file CSV con i campi ID, Nome documento e URL documento. Per ogni documento presente in Storage degli oggetti, fare clic sull'icona Ellissi Icona Ellissi e selezionare Visualizza dettagli oggetto, quindi copiare il valore Nome e il valore Percorso URL(URI).

      Incollare il valore Nome come Nome documento e incollare il valore Percorso URL (URI) come URL documento.

  4. In Oracle Analytics, per ogni bucket utilizzato per memorizzare i documenti, fare clic su Crea, quindi su Data set.
  5. Caricare il file CSV creato nel passo 3, quindi salvare il data set.
    Ripetere i passi 4 e 5 per ogni bucket. Se si dispone di più di 10.000 documenti, creare più bucket che contengano al massimo 10.000 documenti e creare un data set distinto per ogni bucket.