Ingestión de datos de origen de datos en agentes de IA generativa

Un trabajo de ingestión de datos extrae datos de documentos de origen de datos, los convierte en un formato estructurado adecuado para el análisis y, a continuación, los almacena en una base de conocimientos.

  1. En la página de lista Bases de conocimiento, seleccione la base de conocimientos en la que desea ingerir datos para su origen de datos.
    Si necesita ayuda para buscar la página de lista, consulte Listado de bases de conocimientos.
  2. Seleccione el origen de datos que desea ingerir sus datos.
  3. Seleccione Create Ingestion job.
  4. Introduzca los siguientes valores:
    • Nombre: nombre que empieza por una letra o guion bajo, seguido de letras, números, guiones o guiones bajos. La longitud puede oscilar entre 1 y 255 caracteres.
    • Descripción: Descripción opcional
    • Etiquetas: seleccione Mostrar opciones avanzadas y agregue una o más etiquetas al trabajo de ingesta. Si tiene permisos para crear un recurso, tiene permiso para actualizar sus etiquetas. Si necesita ayuda, consulte Conceptos de espacios de nombres de etiquetas y etiquetas.
  5. Haga clic en Crear.
  6. Espere a que cambie el estado del trabajo de ingestión.

Nota

Después de crear un trabajo de ingesta
  1. Revise los logs de estado para confirmar que todos los archivos actualizados se han ingerido correctamente. Si necesita ayuda para obtener los logs de estado, consulte Obtención de detalles de un trabajo de ingesta de datos.
  2. Si el trabajo de ingestión falla (por ejemplo, debido a que un archivo es demasiado grande), solucione el problema y reinicie el trabajo.
Cómo gestiona el pipeline de ingesta los trabajos ejecutados anteriormente

Al reiniciar un trabajo de ingestión ejecutado anteriormente, el pipeline:

  1. Detecta los archivos que se han ingerido anteriormente correctamente y los omite.
  2. Solo ingiere archivos que han fallado anteriormente y que se han actualizado desde entonces.
Escenario de ejemplo

Supongamos que tiene 20 archivos para ingerir y la ejecución del trabajo inicial da como resultado 2 archivos fallidos. Al reiniciar el trabajo, el pipeline:

  1. Reconoce que 18 archivos ya se han ingerido correctamente y los ignora.
  2. Ingiere solo los 2 archivos que han fallado anteriormente y que se han actualizado desde entonces.