Préparation des documents à analyser à l'aide d'un modèle OCI Document Understanding

Utilisez des buckets dans OCI Object Storage pour stocker les documents que vous voulez analyser, puis créez un ensemble de données pour accéder à ces documents dans Oracle Analytics.

En général, vous stockez les documents d'entrée et les modèles d'IA dans le même compte (location) Oracle Cloud, ce qui facilite la configuration dans Oracle Analytics.

Si vos documents d'entrée et vos modèles d'IA sont stockés dans des locations distinctes, procédez comme suit :
  • Assurez-vous que la visibilité du bucket de stockage contenant les documents d'entrée est publique. Reportez-vous à Modification de la visibilité d'un bucket.
  • Remplissez l'ensemble de données d'entrée pour le flux de données avec les URL des documents individuels au lieu d'une URL unique pour le bucket OCI dans lequel les documents sont stockés.
Les flux de données dans Oracle Analytics peuvent traiter jusqu'à 10 000 documents en une exécution. Si vous devez traiter plus de 10 000 documents, dans la zone Object Storage et Archive Storage d'OCI, créez plusieurs buckets ne contenant pas plus de 10 000 documents chacun. Ensuite, créez un ensemble de données et un flux de données distincts pour chaque bucket, puis utilisez une séquence afin de traiter les flux de données de manière séquentielle.

Vous pouvez utiliser un bucket privé ou public accessible à l'utilisateur OCI et conforme aux limites génériques d'OCI sur les documents. Reportez-vous à la documentation OCI.

  1. Dans la console OCI, accédez à Object Storage et Archive Storage, puis créez un bucket pour stocker vos documents.

  2. Dans la zone Object Storage & Archive Storage, cliquez sur le nom d'un bucket, puis sous la région Objets de la page, cliquez sur Télécharger et téléchargez vos documents.
    Assurez-vous que le bucket ne contient pas de fichiers superflus que vous ne voulez pas traiter. Oracle Analytics traite tous les fichiers dans le bucket.
  3. Pour chaque bucket, ajoutez l'URL du bucket à un fichier de valeurs séparées par des virgules (CSV).
    1. Dans Object Storage, sélectionnez le bucket pour afficher les documents dans la boîte de dialogue Objets.
    2. Copiez l'URL à partir de la barre d'URL du navigateur.
    3. Créez un fichier CSV comportant des champs pour ID, Bucket Name et Bucket URL.
    4. Collez l'URL de bucket dans le fichier CSV en tant que valeur Bucket URL.
      Si vos documents d'entrée et vos modèles d'IA sont stockés dans des locations distinctes, vous pouvez également les ajouter individuellement au fichier CSV.
      Créez un fichier CSV comportant des champs pour ID, Document Name et Document URL. Pour chaque document dans Object Storage, cliquez sur l'icône représentant trois points icône de points de suspension, et sélectionnez Visualiser les détails d'objet, copiez le nom et le chemin d'URL (URI).

      Collez le nom en tant que nom du document et le chemin d'URL (URI) en tant qu'URL du document.

  4. Dans Oracle Analytics, pour chaque bucket utilisé à des fins de stockage de vos documents, cliquez sur Créer, puis sur Ensemble de données.
  5. Téléchargez le fichier CSV que vous avez créé à l'étape 3, puis enregistrez l'ensemble de données.
    Répétez les étapes 4 et 5 pour chaque bucket. Si vous avez plus de 10 000 documents, créez plusieurs buckets contenant au maximum 10 000 documents et créez un ensemble de données distinct pour chaque bucket.