Preparar Documentos para Análise com um Modelo do OCI Document Understanding

Você usa buckets no OCI Object Storage para armazenar os documentos que deseja analisar e, em seguida, cria um conjunto de dados para acessar esses documentos no Oracle Analytics.

Normalmente, você armazena documentos de entrada e modelos de IA na mesma conta (tenancy) do Oracle Cloud, que facilita a configuração no Oracle Analytics.

Se seus documentos de entrada e modelos de IA estiverem armazenados em tenancies distintas:
  • Certifique-se de que a visibilidade do bucket de armazenamento que contém seus documentos de entrada seja pública. Consulte Alterar a visibilidade de um bucket.
  • Preencha o conjunto de dados de entrada para o fluxo de dados com URLs de documento individuais, em vez de um único URL, para o bucket do OCI em que os documentos estão armazenados.
Em uma única execução, os fluxos de dados do Oracle Analytics podem processar até 10.000 documentos para modelos pré-treinados e 2.000 documentos para modelos personalizados. Se houver mais do que o número máximo de documentos que podem ser processados em uma execução, no OCI Object Storage e Archive Storage, crie vários buckets que contenham até o número máximo de documentos em cada um. Em seguida, crie um conjunto de dados e um fluxo de dados separados para cada bucket e use uma sequência para processar sequencialmente os fluxos de dados.

Você pode usar um bucket privado ou público acessível pelo usuário do OCI e que esteja em conformidade com os limites genéricos do OCI para documentos. Consulte a documentação do OCI

  1. Na Console do OCI, navegue até Object Storage & Archive Storage e crie um bucket para armazenar seus documentos.

  2. Na área Object Storage & Archive Storage, clique no nome de um bucket e, na região Objetos da página, clique em Fazer Upload e faça upload dos seus documentos.
    Certifique-se de que o bucket não contenha arquivos irrelevantes que você não queira processar. O Oracle Analytics processa cada arquivo do bucket.
  3. Para cada bucket, adicione o URL dele a um arquivo CSV.
    1. No Object Storage, selecione o bucket para exibir os documentos na caixa de diálogo Objetos.
    2. Copie o URL da barra de URL do browser.
    3. Crie um arquivo CSV com campos para ID, Bucket Name e Bucket URL.
    4. Cole o URL do bucket no arquivo CSV como o valor Bucket URL.
      Como alternativa, se seus documentos de entrada e modelos de IA estiverem armazenados em tenancies distintas, adicione-os individualmente ao arquivo CSV.
      Crie um arquivo CSV com campos para ID, Document Name e Document URL. Para cada documento no Object Storage, clique no ícone de reticências ícone reticências e selecione Exibir Detalhes do Objeto e copie os valores Nome e Caminho do URL (URI).

      Cole o valor Nome como Nome do Documento e o valor Caminho do URL (URI) como URL do Documento.

  4. No Oracle Analytics, para cada bucket que você está usando para armazenar seus documentos, clique em Criar e depois em Conjunto de Dados.
  5. Faça upload do arquivo CSV que você criou na Etapa 3 e salve o conjunto de dados.
    Repita as etapas 4 e 5 para cada bucket. Caso haja mais de 10.000 documentos, crie vários buckets de até 10.000 documentos e crie um conjunto de dados separado para cada bucket.