Ingestión de datos de origen de datos en agentes de IA generativa

Un trabajo de ingestión de datos extrae datos de documentos de origen de datos, los convierte en un formato estructurado adecuado para el análisis y, a continuación, los almacena en una base de conocimientos.

  1. En la página de lista Bases de conocimientos, seleccione la base de conocimientos en la que desea ingerir datos para su origen de datos. Si necesita ayuda para encontrar la página de lista, consulte Lista de bases de conocimientos.
  2. Seleccione el origen de datos que desea ingerir sus datos.
  3. Seleccione Create Ingestion job.
  4. Introduzca los siguientes valores:
    • Nombre: nombre que empieza por una letra o guion bajo, seguido de letras, números, guiones o guiones bajos. La longitud puede oscilar entre 1 y 255 caracteres.
    • Descripción: Descripción opcional
    • Etiquetas: seleccione Mostrar opciones avanzadas y agregue una o más etiquetas al trabajo de ingesta. Si tiene permisos para crear un recurso, tiene permiso para actualizar sus etiquetas. Si necesita ayuda, consulte Conceptos de espacios de nombres de etiquetas y etiquetas.
  5. Haga clic en Crear.

    Un trabajo de ingestión se inicia con el estado Aceptado como trabajo inicial. No puede cancelar un trabajo de ingestión en ningún estado.

  6. Espere a que el estado del trabajo cambie y realice cualquier acción que sea necesaria.

    Vea los logs de estado del trabajo para obtener los detalles del procesamiento de ingestión de archivos, incluidas las acciones correctivas. Consulte Obtención de detalles de un trabajo de ingesta de datos para obtener instrucciones sobre cómo ver los logs de estado.

    Estado del trabajo Descripción Acción que se realizará
    Correcto El trabajo se ha completado y procesado correctamente todos los archivos. Revise los logs de estado para confirmar que todos los archivos actualizados se han ingerido correctamente.
    Completado, con fallos El trabajo finalizó y procesó todos los archivos. Sin embargo, hay algunos fallos de archivos. Los posibles fallos o fallos de archivo pueden ser:
    • Archivo corrupto.
    • El archivo PDF está protegido por contraseña.
    • Las imágenes dañadas en un archivo se ignoran.
    • Fallo de ingestión de datos de tabla en un PDF. El resto del contenido del archivo se ingiere.
    • Fallo de ingesta de URL en un PDF. El resto del contenido del archivo se ingiere.
    • Se ha producido un problema al procesar los atributos de metadatos del archivo. El archivo se ingiere pero sin los atributos de metadatos.
    Compruebe los logs de estado para comprender el motivo de los fallos de archivos individuales. Solucione los problemas y reinicie el trabajo.
    Fallo, corregir origen de datos Existe un problema al acceder al cubo o a los archivos que se especifican en la configuración del origen de datos. Consulte los logs de estado para obtener sugerencias sobre cómo solucionar el problema o los problemas y, a continuación, reinicie el trabajo.
    Fallo, es necesario reintentar Existe un problema con un sistema dependiente, como Object Storage o OpenSearch, incluso después de varios reintentos. Vuelva a ejecutar el trabajo más tarde.
    Fallo, póngase en contacto con soporte Hay un problema que no se puede resolver volviendo a intentarlo. Contactar con soporte

Nota

Después de crear un trabajo de ingesta
  1. Revise los logs de estado y de estado para confirmar que todos los archivos actualizados se han ingerido correctamente. Si necesita ayuda para obtener los logs de estado, consulte Obtención de detalles de un trabajo de ingesta de datos.
  2. Si el trabajo de ingestión falla (por ejemplo, debido a que un archivo es demasiado grande), solucione el problema y reinicie el trabajo.
Cómo gestiona el pipeline de ingesta los trabajos ejecutados anteriormente

Al reiniciar un trabajo de ingestión ejecutado anteriormente, el pipeline:

  1. Detecta los archivos que se han ingerido anteriormente correctamente y los omite.
  2. Solo ingiere archivos que han fallado anteriormente y que se han actualizado desde entonces.
Escenario de ejemplo

Supongamos que tiene 20 archivos para ingerir y la ejecución del trabajo inicial da como resultado 2 archivos fallidos. Al reiniciar el trabajo, el pipeline:

  1. Reconoce que 18 archivos ya se han ingerido correctamente y los ignora.
  2. Ingiere solo los 2 archivos que han fallado anteriormente y que se han actualizado desde entonces.