Directives relatives au stockage d'objets de l'outil RAG pour les agents d'IA générative
Consultez les sections suivantes pour préparer les données du service de stockage d'objets pour les outils RAG des agents d'IA générative.
Directives générales
Suivez ces directives pour préparer les données pour les sources de données des agents d'IA générative avant le chargement dans le stockage d'objets :
- Sources de données : Les données des agents d'IA générative doivent être chargées en tant que fichiers dans un seau de stockage d'objets.
- Nombre de seaux : Un seul seau est autorisé par source de données.
- Types de fichier pris en charge : Les fichiers
PDF
,txt
,JSON
,HTML
et Markdown (MD
) sont pris en charge. - Limite de taille de fichier : Chaque fichier ne doit pas dépasser 100 Mo. Les fichiers dépassant la limite sont ignorés. Pour les autres exigences, voir Exigences relatives au type de fichier et soutien.
- URL : Tous les hyperliens présents dans les documents sont extraits et affichés en tant qu'hyperliens dans la réponse au clavardage.
- Données non prêtes : Si vos données ne sont pas encore disponibles, créez un dossier vide pour la source de données et alimentez-le plus tard. De cette façon, vous pouvez ingérer des données dans la source une fois le dossier alimenté.
Configurez les autorisations de stockage d'objets suivantes avant de continuer.
- Accès utilisateur aux fichiers du service de stockage d'objets
- Accès au travail d'ingestion de données aux fichiers de stockage d'objets pour les tâches de longue durée
Voir Obtention de l'accès pour les autorisations.
Exigences relatives au type de fichier et soutien
Les fichiers de source de données doivent être chargés dans le stockage d'objets. Assurez-vous que les exigences sont remplies pour le type de fichier à ingérer.
Les exigences et la prise en charge de l'ingestion des fichiers PDF
sont les suivantes :
- Extension de fichier : Doit être
.pdf
- Taille de fichier : Un fichier unique ne doit pas dépasser 100 Mo.
- Mot de passe du fichier : Si un fichier PDF est protégé par mot de passe, un échec de fichier est enregistré dans les journaux de statut.
- Contenu : Un fichier PDF peut inclure des images, des graphiques et des tables de référence, mais ils ne doivent pas dépasser 8 Mo.
- Préparation de graphique : Aucune préparation spéciale n'est nécessaire pour les graphiques, à condition qu'ils soient bidimensionnels avec des axes étiquetés. Le modèle peut répondre à des questions sur les graphiques sans explications explicites.
- Préparation des tables : Utilisez des tables de référence comportant plusieurs rangées et colonnes. Par exemple, l'agent peut lire la table dans la page Limites.
TXT
Les exigences et la prise en charge de l'ingestion des fichiers txt
sont les suivantes :
- Extension de fichier : Doit être
.txt
- Taille de fichier : Un fichier unique ne doit pas dépasser 100 Mo.
JSON
Les exigences et la prise en charge de l'ingestion des fichiers JSON
sont les suivantes :
- Extension de fichier : Doit être
.json
- Taille de fichier : Un fichier unique ne doit pas dépasser 100 Mo.
- Encodage : Seul l'encodage UTF-8 en anglais est pris en charge. Les données structurées JSON peuvent contenir des paires clé-valeur, des tableaux et des objets imbriqués.
- Profondeur de l'imbrication : La profondeur de la structure ne doit pas dépasser 50.
- Limite de liste : Une liste dans la structure JSON ne doit pas dépasser 10000 éléments.
HTML
Les exigences et la prise en charge de l'ingestion des fichiers HTML
sont les suivantes :
- Extension de fichier : Doit être
.html
- Taille de fichier : Un fichier unique ne doit pas dépasser 100 Mo.
- Contenu : Seul le contenu visible est ingéré. Tout contenu dynamique n'est pas ingéré et les balises de script sont supprimées.
- Images : Les images référencées dans un fichier peuvent être traitées si la source de l'image n'est pas une valeur
HTTP
externe ou un chemin absolu. Toutes les images qui ne répondent pas aux exigences suivantes sont ignorées.- Seules les images
JPEG
(.jpg
ou.jpeg
) sont prises en charge. - Une image ne doit pas dépasser 6 Mo. Toutes les images dépassant la limite sont ignorées.
- Les images doivent être chargées dans le stockage d'objets au même niveau que le fichier HTML chargé ou au-dessous.
- Le chemin source (attribut
src
) de chaque image doit être un chemin relatif au fichier HTML parent. Exemple :<img src="./my-image.jpg"> <img src="./myfolder/my-imagetwo.jpg">
- Le chemin source (
src
attribute) de chaque image ne doit pas spécifier d'URL (http
,https
oudata
)
- Seules les images
MD (Markdown)
Les exigences et la prise en charge de l'ingestion des fichiers MD
(Markdown) sont les suivantes :
- Extension de fichier : Doit être
.md
- Taille de fichier : Un fichier unique ne doit pas dépasser 100 Mo.
- Images : Les images sont ignorées et ne sont pas traitées.
Amélioration de la compréhension des tables
Une meilleure compréhension des tables, une fonctionnalité des outils de RAG, vise à améliorer la précision des réponses aux interrogations avec des réponses intégrées dans les données de table PDF. Il traite ces tables pour générer des réponses plus précises et pertinentes, alignées sur les informations qu'elles contiennent. En général, les outils RAG peuvent lire les tableaux. Pour que l'outil RAG puisse lire les tables avec une meilleure compréhension des tables, assurez-vous que les tables présentent les fonctionnalités suivantes :
- Toutes les cellules du tableau sont séparées par des lignes visibles ou des limites d'objet d'autres cellules, y compris les noms d'en-tête de la première ligne.
- Toutes les colonnes, y compris la première colonne, ont un nom d'en-tête.
- Chaque table comporte plus d'une colonne et plus d'une rangée, à l'exclusion de la rangée avec des noms d'en-tête.
Count of tables that support enhanced table understanding in following PDFs:
- enhanced_table_test_data/2025_Report1.pdf has 4 tables processed successfully
- enhanced_table_test_data/2025_Report2.pdf has 3 tables processed successfully
- enhanced_table_test_data/2025_Report3.pdf has 3 tables processed successfully
Amélioration des réponses grâce au filtrage des métadonnées
Utiliser les métadonnées prédéfinies pour appliquer des filtres lors d'un clavardage. Lorsque des filtres sont appliqués, les recherches d'un agent dans une session de clavardage sont limitées aux fichiers de données associés aux métadonnées, ce qui aide le modèle à générer des réponses pertinentes à la portée du contenu, améliorant ainsi l'exactitude et la pertinence de la réponse de l'agent.
Les étapes suivantes décrivent un aperçu de l'utilisation de la fonction de filtrage des métadonnées. Après avoir compris l'aperçu du flux de travail, vérifiez les détails de votre cas d'utilisation dans les sections fournies après les étapes d'aperçu.
- Dans un éditeur de texte, créez le schéma de métadonnées, qui est requis pour les filtres que vous souhaitez rendre disponibles. Écrivez le schéma au format JSON. Nommez le fichier
_metadata_schema.json
.Exemple :
{ "metadataSchema": [ { "name": "publication_year", "type": "integer" }, { "name": "title", "type": "string" } ] }
- Chargez le fichier
_metadata_schema.json
créé à l'étape 1 au niveau racine du seau de stockage d'objets qui contient les fichiers de données pour une base de connaissances. - Créer des fichiers JSON pour associer des fichiers de données aux métadonnées prédéfinies et fournir les valeurs des métadonnées.
Exemple :
{ "metadataAttributes": { "publication_year": 2020 } }
Vous pouvez associer un ou plusieurs fichiers de données ou tous les fichiers d'un compartiment aux métadonnées. Pour plus de détails sur les conventions de nom de fichier JSON à utiliser pour les options que vous choisissez, voir Options de filtre de métadonnées (nom de fichier et emplacement).
- Chargez les fichiers JSON créés à l'étape 3 dans le seau de stockage d'objets qui contient les fichiers de données pour une base de connaissances. Pour chaque option, assurez-vous d'enregistrer le fichier à l'emplacement approprié dans la hiérarchie.
- Créez une base de connaissances. Sélectionnez Stockage d'objets comme type de magasin de données et l'option pour démarrer automatiquement le travail d'ingestion.
Lorsque les fichiers de données sont ingérés, les agents d'intelligence artificielle générative créent une liste des noms de métadonnées et des valeurs pouvant être sélectionnées dans un clavardage. Pour voir les noms et les valeurs des métadonnées ingérées, voir Obtention des détails d'une base de connaissances dans les agents d'IA générative.
- Créez un agent à l'aide d'un outil RAG, en sélectionnant la base de connaissances créée à l'étape 5. Dans l'agent, sélectionnez l'option permettant de créer automatiquement un point d'extrémité. Si vous avez besoin d'aide, voir Création d'un agent et Création d'un outil RAG.
- Dans une fenêtre de clavardage, ajoutez un ou plusieurs filtres de métadonnées prédéfinis et sélectionnez les valeurs à appliquer. Voir Utiliser des filtres de métadonnées dans un clavardage.
Consultez les sections suivantes pour en savoir plus sur la préparation des fichiers JSON de métadonnées pour votre cas d'utilisation et sur l'ajout et l'application de filtres de métadonnées dans une session de clavardage.
Sélectionnez une ou plusieurs des méthodes suivantes qui vous conviennent le mieux.
Méthode | Nom et emplacement du fichier | Syntaxe |
---|---|---|
Incluez les métadonnées pour tous les fichiers d'un seau sans mentionner les noms de fichier. | Créez un fichier _common.metadata.json au niveau racine du stockage d'objets. |
Utilisez ce fichier pour les métadonnées communes à tous les fichiers du seau. Cette méthode évite d'entrer des métadonnées en double entre les objets. |
Dans un fichier, créez une entrée de métadonnées pour chaque fichier d'un seau et incluez les noms de fichier. | Créez un fichier _all.metadata.json au niveau racine du stockage d'objets. |
Utilisez cette méthode si vous avez beaucoup de fichiers et la création d'un fichier comprenant tous les noms de fichier est plus pratique pour vous que la création d'un fichier de métadonnées par fichier. |
Créez un fichier de métadonnées pour chaque fichier d'un seau. | Créez un fichier <file-name>.metadata.json pour chaque fichier, au niveau du fichier.
|
Utilisez cette méthode lorsque les métadonnées diffèrent pour chaque fichier et qu'il n'y a pas beaucoup de fichiers pour lesquels créer un fichier de métadonnées, ou si vous automatisez la création des fichiers de métadonnées. |
Ajoutez des en-têtes de métadonnées de stockage d'objets à chaque fichier. | Ajoutez un en-tête de métadonnées au moyen de la propriété de métadonnées du service de stockage d'objets de chaque fichier. | Utilisez cette méthode si vous avez peu de propriétés de métadonnées à inclure. Nous vous recommandons d'utiliser les autres méthodes avec des fichiers JSON, car les fichiers sont plus faciles à mettre à jour et à gérer et les en-têtes de métadonnées sont difficiles à mettre à jour. |
Pour toutes les méthodes, vous devez définir un fichier de schéma de métadonnées nommé _metadata_schema.json
au niveau racine du seau de stockage d'objets.
Voici un exemple de hiérarchie dans laquelle vous enregistrez les fichiers de métadonnées dont vous avez besoin.
Les étapes suivantes utilisent des exemples pour montrer comment formater les fichiers JSON de métadonnées. Voir aussi Limites pour le filtrage des métadonnées.
Vous ne pouvez pas modifier ou supprimer les champs de métadonnées une fois les données de la base de connaissances ingérées. Vous pouvez ajouter de nouveaux champs à la limite autorisée. Pour supprimer ou mettre à jour un champ, recréez la base de connaissances.
La procédure suivante suppose que vous avez créé le schéma de métadonnées requis et les fichiers JSON de filtre de métadonnées facultatifs, une base de connaissances et un agent avec un outil RAG et un point d'extrémité.
Description | Limite |
---|---|
Nombre maximal d'entrées dans _all.metadata.json |
10,000 |
Nombre maximal de champs de métadonnées pouvant être spécifiés pour chaque fichier | 20 |
Nombre maximal d'éléments dans un list_of_string type |
10 |
Longueur maximale d'un élément individuel d'un type list_of_string |
50 |
Longueur maximale d'une clé de métadonnées en caractères | 25 |
Longueur maximale de la valeur des métadonnées en caractères | 50 |
Ajout de métadonnées à un en-tête de métadonnées de stockage d'objets
Ajout de données avec une URL personnalisée à un seau de stockage d'objets
Clients bêta :
Si vous avez créé une base de connaissances dans la phase bêta, vous devrez peut-être supprimer et recréer la source de données pour que la fonction de traitement des URL fonctionne.
Affectation d'une URL personnalisée à un constat d'infraction
metadata
pour ce fichier.Cette rubrique montre comment ajouter ou mettre à jour l'objet metadata
au moyen de l'interface de ligne de commande OCI.
- L'objet
metadata
qui remplace la citation par défaut doit avoir le nomcustomized_url_source
. - Vous pouvez avoir un objet
metadata
portant le nomcustomized_url_source
- Chaque
customized_url_source
ne peut avoir qu'une seule URL. - Les commandes de l'étape 5 fonctionnent à la fois pour ajouter et mettre à jour l'objet
metadata
, car elles remplacent la valeur de l'objetmetadata
courant. - Assurez-vous de transmettre les valeurs de l'objet
--metadata
au format indiqué dans les commandes de l'étape 5.