Inclusion de données de source de données dans des agents d'IA générative

Un travail d'ingestion de données extrait des données des documents de source de données, les convertit dans un format structuré adapté à l'analyse, puis les stocke dans une base de connaissances.

  1. Sur la page de liste Bases de connaissances, sélectionnez la base de connaissances à inclure dans les données de sa source de données. Si vous avez besoin d'aide pour trouver la page de liste, reportez-vous à la rubrique Liste des bases de connaissances.
  2. Sélectionnez la source de données que vous voulez ingérer.
  3. Sélectionnez Créer un travail d'inclusion.
  4. Entrez les valeurs suivantes :
    • Nom : nom qui commence par une lettre ou un trait de soulignement, suivi de lettres, de chiffres, de tirets ou de traits de soulignement. La longueur peut aller de 1 à 255 caractères.
    • Description : description facultative
    • Balises : sélectionnez Afficher les options avancées et ajoutez des balises au travail d'ingestion. Si vous êtes autorisé à créer une ressource, vous pouvez mettre à jour ses balises. Si vous avez besoin d'aide, reportez-vous à Concepts relatifs aux balises et à l'espace de noms de balise.
  5. Sélectionnez Créer.

    Un travail d'ingestion démarre avec le statut Accepté comme travail initial. Vous ne pouvez pas annuler un travail d'inclusion dans un état quelconque.

  6. Attendez que le statut du travail change et effectuez toute action requise.

    Affichez les journaux de statut du travail pour obtenir les détails du traitement d'inclusion de fichiers, y compris les actions correctives. Pour obtenir des instructions sur la visualisation des journaux de statut, reportez-vous à Obtention des détails d'un travail d'inclusion de données.

    Statut du travail Description Action à exécuter
    Succès Le travail s'est terminé et a traité tous les fichiers avec succès. Consultez les journaux de statut pour vérifier que tous les fichiers mis à jour ont bien été inclus.
    Terminé, avec échecs Le travail a terminé et traité tous les fichiers. Toutefois, certains fichiers échouent. Les échecs de fichier possibles sont les suivants :
    • Fichier endommagé.
    • Le fichier PDF est protégé par un mot de passe.
    • Les images endommagées dans un fichier sont ignorées.
    • Echec de l'inclusion des données de table dans un PDF. Le reste du contenu du fichier est inclus.
    • Echec de l'inclusion des URL dans un PDF. Le reste du contenu du fichier est inclus.
    • Un problème est survenu lors du traitement des attributs de métadonnées de fichier. Le fichier est inclus, mais sans les attributs de métadonnées.
    Consultez les journaux de statut pour comprendre la raison des échecs de fichiers individuels. Résolvez les problèmes et redémarrez le travail.
    Echec, correction de la source de données Un problème est survenu lors de l'accès au ou aux fichiers indiqués dans la configuration de la source de données. Consultez les journaux de statut pour obtenir des suggestions sur la façon de résoudre le ou les problèmes, puis redémarrez le travail.
    Echec, nouvelle tentative requise Un problème survient avec un système dépendant tel qu'Object Storage ou OpenSearch, même après plusieurs tentatives. Exécutez à nouveau le travail ultérieurement.
    Echec, contactez le support technique Il existe un problème qui ne peut pas être résolu par une nouvelle tentative. Contacter l'assistance

Remarque

Après la création d'un travail d'inclusion
  1. Consultez les journaux de statut et de statut pour vérifier que tous les fichiers mis à jour ont bien été ingérés. Si vous avez besoin d'aide pour obtenir les journaux de statut, reportez-vous à Obtention des détails d'un travail d'ingestion de données.
  2. Si le travail d'ingestion échoue (par exemple, en raison d'un fichier trop volumineux), résolvez le problème et redémarrez le travail.
Gestion des travaux exécutés précédemment par le pipeline d'ingestion

Lorsque vous redémarrez un travail d'ingestion exécuté précédemment, le pipeline :

  1. Détecte les fichiers qui ont été ingérés précédemment et les ignore.
  2. Inclut uniquement les fichiers qui ont échoué précédemment et qui ont été mis à jour depuis.
Exemple de scénario

Supposons que vous ayez 20 fichiers à ingérer et que l'exécution initiale du travail génère 2 fichiers en échec. Lorsque vous redémarrez le travail, le pipeline :

  1. Reconnaît que 18 fichiers ont déjà été ingérés et les ignorent.
  2. Inclut uniquement les 2 fichiers qui ont échoué précédemment et qui ont été mis à jour depuis.