Ingestion des données de source de données dans des agents d'IA génératifs

Une tâche d'ingestion de données extrait des données des documents de source de données, les convertit dans un format structuré approprié pour l'analyse, puis les stocke dans une base de connaissances.

  1. Dans la page de liste Bases de connaissances, sélectionnez la base de connaissances dont vous voulez ingérer les données pour sa source de données. Si vous avez besoin d'aide pour trouver la page de liste, voir Liste des bases de connaissances.
  2. Sélectionnez la source de données que vous souhaitez ingérer ses données.
  3. Sélectionnez Créer un travail d'ingestion.
  4. Entrez les valeurs suivantes :
    • Nom : Nom qui commence par une lettre ou un soulignement, suivi de lettres, de chiffres, de traits d'union ou de traits de soulignement. Il peut comporter de 1 à 255 caractères.
    • Description : Description facultative
    • Marqueurs : Sélectionnez Afficher les options avancées et ajoutez un ou plusieurs marqueurs au travail d'ingestion. Si vous êtes autorisé à créer une ressource, vous avez l'autorisation de mettre à jour ses marqueurs. Si vous avez besoin d'aide, voir Marqueurs et concepts d'espace de noms de marqueur.
  5. Sélectionnez Créer.

    Une tâche d'ingestion a démarré avec le statut Accepté comme statut initial de la tâche. Vous ne pouvez annuler un travail d'ingestion dans aucun état.

  6. Attendez que le statut de la tâche change et effectuez toute action requise.

    Consultez les journaux de statut de la tâche pour obtenir les détails du traitement d'ingestion de fichier, y compris les actions correctives. Voir Obtention des détails d'une tâche d'ingestion de données pour obtenir des instructions sur la consultation des journaux de statut.

    Statut de la tâche Description Action à exécuter
    Réussite La tâche s'est terminée et a traité tous les fichiers avec succès. Consultez les journaux de statut pour vérifier que tous les fichiers mis à jour ont été ingérés.
    Terminée, avec erreurs La tâche a terminé et traité tous les fichiers. Cependant, il y a quelques échecs de fichier. Les échecs ou défaillances de fichier possibles peuvent être :
    • Fichier altéré.
    • Le fichier PDF est protégé par mot de passe.
    • Les images corrompues dans un fichier sont ignorées.
    • Échec de l'ingestion des données de table dans un PDF. Le reste du contenu du fichier est ingéré.
    • Échec de l'ingestion des URL dans un PDF. Le reste du contenu du fichier est ingéré.
    • Un problème est survenu lors du traitement des attributs de métadonnées de fichier. Le fichier est ingéré mais sans les attributs de métadonnées.
    Consultez les journaux de statut pour comprendre les raisons des échecs de fichier individuels. Résolvez les problèmes et redémarrez le travail.
    Échec, corrigez la source de données Un problème est survenu lors de l'accès au seau ou aux fichiers spécifiés dans la configuration de la source de données. Consultez les journaux de statut pour obtenir des suggestions sur la façon de résoudre le problème ou les problèmes, puis redémarrez la tâche.
    Échec, réessayez Un problème est survenu avec un système dépendant tel que le service de stockage d'objets ou OpenSearch, même après plusieurs tentatives. Exécutez de nouveau la tâche plus tard.
    Échec, communiquez avec le soutien technique Un problème ne peut pas être résolu par une nouvelle tentative. Communiquez avec le soutien technique

Note

Après avoir créé une tâche d'ingestion
  1. Consultez les journaux de statut et de statut pour confirmer que tous les fichiers mis à jour ont été ingérés. Si vous avez besoin d'aide pour obtenir les journaux de statut, voir Obtention des détails d'un travail d'ingestion de données.
  2. Si la tâche d'ingestion échoue (par exemple, en raison d'un fichier trop volumineux), résolvez le problème et redémarrez la tâche.
Traitement des tâches exécutées précédemment par le pipeline d'ingestion

Lorsque vous redémarrez une tâche d'ingestion exécutée précédemment, le pipeline :

  1. Détecte les fichiers qui ont été ingérés avec succès précédemment et les ignore.
  2. Ingère uniquement les fichiers qui ont échoué précédemment et qui ont depuis été mis à jour.
Exemple de scénario

Supposons que vous ayez 20 fichiers à ingérer et que l'exécution de la tâche initiale aboutisse à 2 fichiers en échec. Lorsque vous redémarrez la tâche, le pipeline :

  1. Reconnaît que 18 fichiers ont déjà été ingérés avec succès et les ignore.
  2. Enregistre uniquement les 2 fichiers qui ont échoué précédemment et qui ont depuis été mis à jour.