Directrices de almacenamiento de objetos de la herramienta RAG para agentes de IA generativa
Revise las siguientes secciones para preparar los datos de Object Storage para las herramientas RAG en los agentes de IA generativa.
Guías generales
Siga estas directrices para preparar datos para orígenes de datos de agentes de IA generativa antes de cargarlos en Object Storage:
- Orígenes de datos: los datos de los agentes de IA generativa se deben cargar como archivos en un cubo de Object Storage.
- Número de cubos: solo se permite un cubo por origen de datos.
- Tipos de archivos soportados: solo están soportados los archivos
PDF
ytxt
. - Límite de tamaño de archivo: cada archivo no debe tener más de 100 MB.
- Contenido PDF: los archivos
PDF
pueden incluir imágenes, gráficos y tablas de referencia, pero no deben superar los 8 MB. - Preparación del gráfico: no se necesita ninguna preparación especial para los gráficos, siempre que sean bidimensionales con ejes con etiquetas. El modelo puede responder preguntas sobre los gráficos sin explicaciones explícitas.
- Preparación de la Tabla: Utilice tablas de referencia con varias filas y columnas. Por ejemplo, el agente puede leer la tabla en la página límites.
- URL: todos los hipervínculos presentes en los documentos
PDF
se extraen y se muestran como hipervínculos en la respuesta de chat. - Datos no listos: si los datos aún no están disponibles, cree una carpeta vacía para el origen de datos y rellénela más tarde. De esta forma, puede ingerir datos en el origen después de rellenar la carpeta.
Configure los siguientes permisos de Object Storage antes de continuar.
- Acceso de usuario a archivos de Object Storage
- Acceso de trabajo de ingesta de datos a archivos de Object Storage para trabajos de larga ejecución
Consulte Obtención de acceso para obtener los permisos.
Garantía de una mejor comprensión de las tablas
La comprensión mejorada de las tablas, una función de las herramientas de RAG, tiene como objetivo mejorar la precisión de las respuestas a las consultas con respuestas incrustadas en los datos de las tablas PDF. Procesa estas tablas para generar respuestas más precisas y relevantes alineadas con la información que contienen. En general, las herramientas de RAG pueden leer las tablas. Para que la herramienta RAG lea las tablas con una comprensión mejorada de las tablas, asegúrese de que las tablas tengan las siguientes funciones:
- Todas las celdas de la tabla se separan con líneas visibles o límites de objetos de otras celdas, incluidos los nombres de cabecera de la primera fila.
- Todas las columnas, incluida la primera columna, tienen un nombre de cabecera.
- Cada tabla tiene más de una columna y más de una fila, excluyendo la fila con nombres de cabecera.
Count of tables that support enhanced table understanding in following PDFs:
- enhanced_table_test_data/2025_Report1.pdf has 4 tables processed successfully
- enhanced_table_test_data/2025_Report2.pdf has 3 tables processed successfully
- enhanced_table_test_data/2025_Report3.pdf has 3 tables processed successfully
Mejora de respuestas con filtrado de metadatos
Utilizar metadatos predefinidos para aplicar filtros durante un chat. Cuando se aplican filtros, las búsquedas de un agente en una sesión de chat se limitan a los archivos de datos asociados a los metadatos, lo que ayuda al modelo a generar respuestas relevantes para el ámbito de contenido, mejorando así la precisión y relevancia de la respuesta del agente.
Los siguientes pasos describen una descripción general de cómo utilizar la función de filtrado de metadatos. Después de comprender la descripción general del flujo de trabajo, revise los detalles del caso de uso en las secciones proporcionadas después de los pasos de descripción general.
- En un editor de texto, cree el esquema de metadatos, que es necesario para los filtros que desea que estén disponibles. Escriba el esquema en formato JSON. Asigne al archivo el nombre
_metadata_schema.json
.Ejemplo:
{ "metadataSchema": [ { "name": "publication_year", "type": "integer" }, { "name": "title", "type": "string" } ] }
- Cargue el archivo
_metadata_schema.json
creado en el paso 1 en el nivel raíz del cubo de Object Storage que contiene los archivos de datos para una base de conocimientos. - Cree archivos JSON para asociar archivos de datos a los metadatos predefinidos y proporcione los valores de metadatos.
Ejemplo:
{ "metadataAttributes": { "publication_year": 2020 } }
Puede asociar uno o más archivos de datos o todos los archivos de un cubo a los metadatos. Para obtener más información sobre las convenciones de nombre de archivo JSON que se deben utilizar para las opciones que elija, consulte Opciones de filtro de metadatos (nombre de archivo y ubicación).
- Cargue los archivos JSON creados en el paso 3 en el cubo de Object Storage que contiene los archivos de datos para una base de conocimientos. Para cada opción, asegúrese de guardar el archivo en la ubicación correcta en la jerarquía.
- Cree una base del conocimiento. Seleccione Object Storage como tipo de almacén de datos y la opción para iniciar automáticamente el trabajo de ingesta.
Cuando se ingieren los archivos de datos, los agentes de IA generativa crean una lista de los nombres de metadatos y los valores que se pueden seleccionar en un chat. Para ver los nombres y valores de metadatos ingeridos, consulte Obtención de detalles de una base de conocimientos en agentes de IA generativa.
- Cree un agente con una herramienta RAG, seleccionando la base de conocimientos creada en el paso 5. En el agente, seleccione la opción para crear automáticamente un punto final. Si necesita ayuda, consulte Creación de un Agente y Creación de una Herramienta RAG.
- En una ventana de chat, agregue uno o más filtros de metadatos predefinidos y seleccione los valores que desea aplicar. Consulte Uso de filtros de metadatos en un chat.
Revise las siguientes secciones para obtener más información sobre la preparación de archivos JSON de metadatos para su caso de uso y cómo agregar y aplicar filtros de metadatos en una sesión de chat.
Seleccione uno o más de los siguientes métodos que mejor se adapten a sus necesidades.
Método | Nombre de Archivo y Ubicación | Sintaxis |
---|---|---|
Incluya metadatos para todos los archivos de un cubo sin mencionar los nombres de archivo. | Cree un archivo _common.metadata.json en el nivel raíz de Object Storage. |
Utilice este archivo para los metadatos que son comunes a todos los archivos del cubo. Este método ayuda a evitar la introducción de duplicados de metadatos entre objetos. |
En un archivo, cree una entrada de metadatos para cada archivo de un cubo e incluya los nombres de archivo. | Cree un archivo _all.metadata.json en el nivel raíz de Object Storage. |
Utilice este método si tiene muchos archivos y crear un archivo que incluya todos los nombres de archivo es más conveniente para usted que crear un archivo de metadatos por archivo. |
Cree un archivo de metadatos para cada archivo de un cubo. | Cree un archivo <file-name>.metadata.json para cada archivo, en el nivel de archivo.
|
Utilice este método cuando los metadatos difieran para cada archivo y no haya muchos archivos para los que crear un archivo de metadatos o si está automatizando la creación de los archivos de metadatos. |
Agregue cabeceras de metadatos de Object Storage a cada archivo. | Agregue una cabecera de metadatos a través de la propiedad de metadatos de Object Storage de cada archivo. | Utilice este método si tiene pocas propiedades de metadatos que incluir. Recomendamos utilizar los otros métodos con archivos JSON, ya que los archivos son más fáciles de actualizar y gestionar y las cabeceras de metadatos son difíciles de actualizar. |
Para todos los métodos, debe definir un archivo de esquema de metadatos denominado _metadata_schema.json
en el nivel raíz del cubo de Object Storage.
A continuación, se muestra un ejemplo de jerarquía en la que se guardan los archivos de metadatos que se necesitan.
Los siguientes pasos utilizan ejemplos para mostrar cómo formatear los archivos JSON de metadatos. Consulte también Límites para filtrado de metadatos.
No puede cambiar ni eliminar los campos de metadatos una vez que se ingieren los datos de la base de conocimientos. Puede agregar nuevos campos hasta el límite permitido. Para eliminar o actualizar un campo, vuelva a crear la base de conocimientos.
En el siguiente procedimiento se asume que ha creado el esquema de metadatos necesario y los archivos JSON de filtro de metadatos opcionales, una base de conocimientos y un agente con una herramienta RAG y un punto final.
Descripción | Limitar |
---|---|
Número máximo de entradas en _all.metadata.json |
10.000 |
Número máximo de campos de metadatos que se pueden especificar para cada archivo | 20 |
Número máximo de elementos en list_of_string type |
10 |
Longitud máxima de elemento individual en un tipo list_of_string |
50 |
Longitud máxima de una clave de metadatos en caracteres | 25 |
Longitud máxima del valor de metadatos en caracteres | 50 |
Adición de metadatos a una cabecera de metadatos de Object Storage
Adición de datos con una URL personalizada a un cubo de Object Storage
Clientes beta:
Si creó una base de conocimientos en la fase beta, es posible que deba suprimir y volver a crear el origen de datos para que funcione la función de manejo de URL.
Asignación de una URL personalizada a una cita
metadata
para ese archivo.En este tema se muestra cómo agregar o actualizar el objeto metadata
mediante la CLI de OCI.
- El objeto
metadata
que sustituye la cita por defecto debe tener el nombrecustomized_url_source
. - Puede tener un objeto
metadata
con el nombrecustomized_url_source
- Cada
customized_url_source
solo puede tener una URL. - Los comandos del paso 5 funcionan tanto para agregar como para actualizar el objeto
metadata
, ya que sustituyen el valor del objetometadata
actual. - Asegúrese de transferir los valores para el objeto
--metadata
con el formato mostrado en los comandos del paso 5.