Directrices de almacenamiento de objetos de la herramienta RAG para agentes de IA generativa
Revise las siguientes secciones para preparar los datos de Object Storage para las herramientas RAG en los agentes de IA generativa.
Guías generales
Siga estas directrices para preparar datos para orígenes de datos de agentes de IA generativa antes de cargarlos en Object Storage:
- Orígenes de datos: los datos de los agentes de IA generativa se deben cargar como archivos en un cubo de Object Storage.
- Número de cubos: solo se permite un cubo por origen de datos.
- Tipos de archivo soportados: se admiten los archivos
PDF
,txt
,JSON
,HTML
y Markdown (MD
). - Límite de tamaño de archivo: cada archivo no debe tener más de 100 MB. Los archivos que superen el límite se ignoran. Para conocer otros requisitos, consulte File Type Requirements and Support.
- URL: todos los hipervínculos presentes en los documentos se extraen y se muestran como hipervínculos en la respuesta de chat.
- Datos no listos: si los datos aún no están disponibles, cree una carpeta vacía para el origen de datos y rellénela más tarde. De esta forma, puede ingerir datos en el origen después de rellenar la carpeta.
Configure los siguientes permisos de Object Storage antes de continuar.
- Acceso de usuario a archivos de Object Storage
- Acceso de trabajo de ingesta de datos a archivos de Object Storage para trabajos de larga ejecución
Consulte Obtención de acceso para obtener los permisos.
Requisitos y soporte del tipo de archivo
Los archivos de origen de datos se deben cargar en Object Storage. Asegúrese de que se cumplen los requisitos para el tipo de archivo que se va a ingerir.
Los requisitos y el soporte para la ingestión de archivos PDF
son los siguientes:
- Extensión de archivo: debe ser
.pdf
- Tamaño de archivo: un único archivo no debe superar los 100 MB.
- Contraseña de archivo: si un archivo PDF está protegido por contraseña, se registra un fallo de archivo en los logs de estado.
- Contenido: un archivo PDF puede incluir imágenes, gráficos y tablas de referencia, pero estos no deben superar los 8 MB.
- Preparación de gráficos: no se necesita ninguna preparación especial para los gráficos, siempre que sean bidimensionales con ejes etiquetados. El modelo puede responder preguntas sobre los gráficos sin explicaciones explícitas.
- Preparación de tablas: utilice tablas de referencia con varias filas y columnas. Por ejemplo, el agente puede leer la tabla en la página límites.
txt
Los requisitos y el soporte para la ingestión de archivos txt
son los siguientes:
- Extensión de archivo: debe ser
.txt
- Tamaño de archivo: un único archivo no debe superar los 100 MB.
JSON
Los requisitos y el soporte para la ingestión de archivos JSON
son los siguientes:
- Extensión de archivo: debe ser
.json
- Tamaño de archivo: un único archivo no debe superar los 100 MB.
- Codificación: solo se admite la codificación UTF-8 en inglés. Los datos estructurados JSON pueden contener pares clave-valor, matrices y objetos anidados.
- Profundidad del anidamiento: la profundidad de la estructura no debe superar los 50.
- Límite de lista: una lista dentro de la estructura JSON no debe superar los 10000 elementos.
HTML
Los requisitos y el soporte para la ingestión de archivos HTML
son los siguientes:
- Extensión de archivo: debe ser
.html
- Tamaño de archivo: un único archivo no debe superar los 100 MB.
- Contenido: solo se ingiere contenido visible. No se ingiere ningún contenido dinámico y se eliminan las etiquetas de script.
- Imágenes: las imágenes a las que se hace referencia en un archivo se pueden procesar si el origen de imagen no es una
HTTP
externa ni una ruta absoluta. Las imágenes que no cumplan los siguientes requisitos se ignoran.- Solo están soportadas las imágenes
JPEG
(.jpg
o.jpeg
). - Una sola imagen no debe superar los 6 MB. Las imágenes que superen el límite se ignoran.
- Las imágenes se deben cargar en Object Storage al mismo nivel que el archivo HTML cargado o por debajo de él.
- La ruta de acceso de origen (atributo
src
) a cada imagen debe ser una ruta relativa al archivo HTML principal. Por ejemplo:<img src="./my-image.jpg"> <img src="./myfolder/my-imagetwo.jpg">
- La ruta de acceso de origen (atributo
src
) a cada imagen no debe especificar direcciones URL (http
,https
odata
)
- Solo están soportadas las imágenes
Rebaja (rebaja)
Los requisitos y el soporte para la ingestión de archivos MD
(Markdown) son los siguientes:
- Extensión de archivo: debe ser
.md
- Tamaño de archivo: un único archivo no debe superar los 100 MB.
- Imágenes: las imágenes se ignoran y no se procesan.
Garantía de una mejor comprensión de las tablas
La comprensión mejorada de las tablas, una función de las herramientas de RAG, tiene como objetivo mejorar la precisión de las respuestas a las consultas con respuestas incrustadas en los datos de las tablas PDF. Procesa estas tablas para generar respuestas más precisas y relevantes alineadas con la información que contienen. En general, las herramientas de RAG pueden leer las tablas. Para que la herramienta RAG lea las tablas con una comprensión mejorada de las tablas, asegúrese de que las tablas tengan las siguientes funciones:
- Todas las celdas de la tabla se separan con líneas visibles o límites de objetos de otras celdas, incluidos los nombres de cabecera de la primera fila.
- Todas las columnas, incluida la primera columna, tienen un nombre de cabecera.
- Cada tabla tiene más de una columna y más de una fila, excluyendo la fila con nombres de cabecera.
Count of tables that support enhanced table understanding in following PDFs:
- enhanced_table_test_data/2025_Report1.pdf has 4 tables processed successfully
- enhanced_table_test_data/2025_Report2.pdf has 3 tables processed successfully
- enhanced_table_test_data/2025_Report3.pdf has 3 tables processed successfully
Mejora de respuestas con filtrado de metadatos
Utilizar metadatos predefinidos para aplicar filtros durante un chat. Cuando se aplican filtros, las búsquedas de un agente en una sesión de chat se limitan a los archivos de datos asociados a los metadatos, lo que ayuda al modelo a generar respuestas relevantes para el ámbito de contenido, mejorando así la precisión y relevancia de la respuesta del agente.
Los siguientes pasos describen una descripción general de cómo utilizar la función de filtrado de metadatos. Después de comprender la descripción general del flujo de trabajo, revise los detalles del caso de uso en las secciones proporcionadas después de los pasos de descripción general.
- En un editor de texto, cree el esquema de metadatos, que es necesario para los filtros que desea que estén disponibles. Escriba el esquema en formato JSON. Asigne al archivo el nombre
_metadata_schema.json
.Ejemplo:
{ "metadataSchema": [ { "name": "publication_year", "type": "integer" }, { "name": "title", "type": "string" } ] }
- Cargue el archivo
_metadata_schema.json
creado en el paso 1 en el nivel raíz del cubo de Object Storage que contiene los archivos de datos para una base de conocimientos. - Cree archivos JSON para asociar archivos de datos a los metadatos predefinidos y proporcione los valores de metadatos.
Ejemplo:
{ "metadataAttributes": { "publication_year": 2020 } }
Puede asociar uno o más archivos de datos o todos los archivos de un cubo a los metadatos. Para obtener más información sobre las convenciones de nombre de archivo JSON que se deben utilizar para las opciones que elija, consulte Opciones de filtro de metadatos (nombre de archivo y ubicación).
- Cargue los archivos JSON creados en el paso 3 en el cubo de Object Storage que contiene los archivos de datos para una base de conocimientos. Para cada opción, asegúrese de guardar el archivo en la ubicación correcta en la jerarquía.
- Cree una base del conocimiento. Seleccione Object Storage como tipo de almacén de datos y la opción para iniciar automáticamente el trabajo de ingesta.
Cuando se ingieren los archivos de datos, los agentes de IA generativa crean una lista de los nombres de metadatos y los valores que se pueden seleccionar en un chat. Para ver los nombres y valores de metadatos ingeridos, consulte Obtención de detalles de una base de conocimientos en agentes de IA generativa.
- Cree un agente con una herramienta RAG, seleccionando la base de conocimientos creada en el paso 5. En el agente, seleccione la opción para crear automáticamente un punto final. Si necesita ayuda, consulte Creación de un Agente y Creación de una Herramienta RAG.
- En una ventana de chat, agregue uno o más filtros de metadatos predefinidos y seleccione los valores que desea aplicar. Consulte Uso de filtros de metadatos en un chat.
Revise las siguientes secciones para obtener más información sobre la preparación de archivos JSON de metadatos para su caso de uso y cómo agregar y aplicar filtros de metadatos en una sesión de chat.
Seleccione uno o más de los siguientes métodos que mejor se adapten a sus necesidades.
Método | Nombre de Archivo y Ubicación | Sintaxis |
---|---|---|
Incluya metadatos para todos los archivos de un cubo sin mencionar los nombres de archivo. | Cree un archivo _common.metadata.json en el nivel raíz de Object Storage. |
Utilice este archivo para los metadatos que son comunes a todos los archivos del cubo. Este método ayuda a evitar la introducción de duplicados de metadatos entre objetos. |
En un archivo, cree una entrada de metadatos para cada archivo de un cubo e incluya los nombres de archivo. | Cree un archivo _all.metadata.json en el nivel raíz de Object Storage. |
Utilice este método si tiene muchos archivos y crear un archivo que incluya todos los nombres de archivo es más conveniente para usted que crear un archivo de metadatos por archivo. |
Cree un archivo de metadatos para cada archivo de un cubo. | Cree un archivo <file-name>.metadata.json para cada archivo, en el nivel de archivo.
|
Utilice este método cuando los metadatos difieran para cada archivo y no haya muchos archivos para los que crear un archivo de metadatos o si está automatizando la creación de los archivos de metadatos. |
Agregue cabeceras de metadatos de Object Storage a cada archivo. | Agregue una cabecera de metadatos a través de la propiedad de metadatos de Object Storage de cada archivo. | Utilice este método si tiene pocas propiedades de metadatos que incluir. Recomendamos utilizar los otros métodos con archivos JSON, ya que los archivos son más fáciles de actualizar y gestionar y las cabeceras de metadatos son difíciles de actualizar. |
Para todos los métodos, debe definir un archivo de esquema de metadatos denominado _metadata_schema.json
en el nivel raíz del cubo de Object Storage.
A continuación, se muestra un ejemplo de jerarquía en la que se guardan los archivos de metadatos que se necesitan.
Los siguientes pasos utilizan ejemplos para mostrar cómo formatear los archivos JSON de metadatos. Consulte también Límites para filtrado de metadatos.
No puede cambiar ni eliminar los campos de metadatos una vez que se ingieren los datos de la base de conocimientos. Puede agregar nuevos campos hasta el límite permitido. Para eliminar o actualizar un campo, vuelva a crear la base de conocimientos.
En el siguiente procedimiento se asume que ha creado el esquema de metadatos necesario y los archivos JSON de filtro de metadatos opcionales, una base de conocimientos y un agente con una herramienta RAG y un punto final.
Descripción | Limitar |
---|---|
Número máximo de entradas en _all.metadata.json |
10.000 |
Número máximo de campos de metadatos que se pueden especificar para cada archivo | 20 |
Número máximo de elementos en list_of_string type |
10 |
Longitud máxima de elemento individual en un tipo list_of_string |
50 |
Longitud máxima de una clave de metadatos en caracteres | 25 |
Longitud máxima del valor de metadatos en caracteres | 50 |
Adición de metadatos a una cabecera de metadatos de Object Storage
Adición de datos con una URL personalizada a un cubo de Object Storage
Clientes beta:
Si creó una base de conocimientos en la fase beta, es posible que deba suprimir y volver a crear el origen de datos para que funcione la función de manejo de URL.
Asignación de una URL personalizada a una cita
metadata
para ese archivo.En este tema se muestra cómo agregar o actualizar el objeto metadata
mediante la CLI de OCI.
- El objeto
metadata
que sustituye la cita por defecto debe tener el nombrecustomized_url_source
. - Puede tener un objeto
metadata
con el nombrecustomized_url_source
- Cada
customized_url_source
solo puede tener una URL. - Los comandos del paso 5 funcionan tanto para agregar como para actualizar el objeto
metadata
, ya que sustituyen el valor del objetometadata
actual. - Asegúrese de transferir los valores para el objeto
--metadata
con el formato mostrado en los comandos del paso 5.