Linee guida per lo storage degli oggetti dello strumento RAG per gli agenti AI generativi
Esaminare le sezioni riportate di seguito per preparare i dati dello storage degli oggetti per gli strumenti RAG negli agenti AI generativa.
Linee guida generali
Seguire le linee guida riportate di seguito per preparare i dati per le origini dati degli agenti AI generativa prima di eseguire il caricamento nello storage degli oggetti.
- Origini dati: i dati per gli agenti AI generativi devono essere caricati come file in un bucket di storage degli oggetti.
- Numero di bucket: è consentito un solo bucket per ogni origine dati.
- Tipi di file supportati: sono supportati i file
PDF
,txt
,JSON
,HTML
e Markdown (MD
). - Limite della dimensione del file: ogni file non deve superare i 100 MB. Tutti i file che superano il limite vengono ignorati. Per altri requisiti, vedere Requisiti e supporto del tipo di file.
- URL: tutti i collegamenti ipertestuali presenti nei documenti vengono estratti e visualizzati come collegamenti ipertestuali nella risposta della chat.
- Dati non pronti: se i dati non sono ancora disponibili, creare una cartella vuota per l'origine dati e inserirla in un secondo momento. In questo modo, è possibile includere dati nell'origine dopo che la cartella è stata popolata.
Impostare le autorizzazioni di storage degli oggetti riportate di seguito prima di continuare.
- Accesso utente ai file di storage degli oggetti
- Accesso al job di inclusione dati ai file di storage degli oggetti per job con tempi di esecuzione lunghi
Per informazioni sulle autorizzazioni, vedere Come ottenere l'accesso.
Requisiti e supporto del tipo di file
I file dell'origine dati devono essere caricati nello storage degli oggetti. Assicurarsi che siano soddisfatti i requisiti per il tipo di file da includere.
I requisiti e il supporto per l'inclusione dei file PDF
sono i seguenti:
- L'estensione del file: deve essere
.pdf
- Dimensione file: un singolo file non deve superare i 100 MB.
- Password file: se un file PDF è protetto da password, un errore di file viene registrato nei log di stato.
- Sommario: un file PDF può includere immagini, grafici e tabelle di riferimento, ma non deve superare gli 8 MB.
- Preparazione grafico: non è necessaria alcuna preparazione speciale per i grafici, purché siano bidimensionali con assi con etichetta. Il modello può rispondere alle domande sui grafici senza spiegazioni esplicite.
- Preparazione tabella: utilizzare tabelle di riferimento con più righe e colonne. Ad esempio, l'agente può leggere la tabella nella pagina limiti.
txt
I requisiti e il supporto per l'inclusione dei file txt
sono i seguenti:
- L'estensione del file: deve essere
.txt
- Dimensione file: un singolo file non deve superare i 100 MB.
JSON
I requisiti e il supporto per l'inclusione dei file JSON
sono i seguenti:
- Estensione del file: deve essere
.json
- Dimensione file: un singolo file non deve superare i 100 MB.
- Codifica: è supportata solo la codifica UTF-8 in inglese. I dati strutturati JSON possono contenere coppie chiave-valore, array e oggetti nidificati.
- Dipendenza nidificazione: la profondità della struttura non deve superare 50.
- Limite lista: una lista all'interno della struttura JSON non deve superare i 10000 elementi.
HTML
I requisiti e il supporto per l'inclusione dei file HTML
sono i seguenti:
- Estensione del file: deve essere
.html
- Dimensione file: un singolo file non deve superare i 100 MB.
- Contenuti: viene incluso solo il contenuto visibile. Qualsiasi contenuto dinamico non viene incluso e le tag script vengono eliminate.
- Immagini: le immagini a cui viene fatto riferimento in un file possono essere elaborate se l'origine dell'immagine non è un
HTTP
esterno o un percorso assoluto. Tutte le immagini che non soddisfano i seguenti requisiti vengono ignorate.- Sono supportate solo le immagini
JPEG
(.jpg
o.jpeg
). - Una singola immagine non deve superare i 6 MB. Tutte le immagini che superano il limite vengono ignorate.
- Le immagini devono essere caricate nello storage degli oggetti allo stesso livello del file HTML caricato o al di sotto di esso.
- Il percorso di origine (attributo
src
) di ogni immagine deve essere un percorso relativo al file HTML padre. Ad esempio:<img src="./my-image.jpg"> <img src="./myfolder/my-imagetwo.jpg">
- Il percorso di origine (attributo
src
) di ogni immagine non deve specificare URL (http
,https
odata
)
- Sono supportate solo le immagini
MD (ribasso)
I requisiti e il supporto per l'inclusione dei file MD
(Markdown) sono i seguenti:
- L'estensione del file: deve essere
.md
- Dimensione file: un singolo file non deve superare i 100 MB.
- Immagini: le immagini vengono ignorate e non elaborate.
Garantire una migliore comprensione delle tabelle
La migliore comprensione delle tabelle, una funzionalità degli strumenti RAG, mira a migliorare l'accuratezza delle risposte alle query con risposte incorporate nei dati delle tabelle PDF. Elabora queste tabelle per generare risposte più precise e pertinenti in linea con le informazioni in esse contenute. In generale, gli strumenti RAG possono leggere le tabelle. Affinché lo strumento RAG legga le tabelle con una migliore comprensione delle tabelle, assicurarsi che le tabelle abbiano le seguenti funzioni:
- Tutte le celle della tabella sono separate da linee visibili o limiti di oggetti di altre celle, inclusi i nomi di intestazione nella prima riga.
- Tutte le colonne, inclusa la prima colonna, hanno un nome intestazione.
- Ogni tabella ha più di una colonna e più di una riga, esclusa la riga con nomi di intestazione.
Count of tables that support enhanced table understanding in following PDFs:
- enhanced_table_test_data/2025_Report1.pdf has 4 tables processed successfully
- enhanced_table_test_data/2025_Report2.pdf has 3 tables processed successfully
- enhanced_table_test_data/2025_Report3.pdf has 3 tables processed successfully
Miglioramento delle risposte con il filtro dei metadati
Utilizzare metadati predefiniti per applicare filtri durante una chat. Quando vengono applicati filtri, le ricerche di un agente in una sessione di chat sono limitate ai file di dati associati ai metadati, aiutando il modello a generare risposte pertinenti all'ambito del contenuto, migliorando così l'accuratezza e la pertinenza delle risposte dell'agente.
I passi riportati di seguito descrivono una panoramica di come utilizzare la funzione di filtro dei metadati. Dopo aver compreso la panoramica del flusso di lavoro, esaminare i dettagli del caso d'uso nelle sezioni fornite dopo i passi della panoramica.
- In un editor di testo, creare lo schema dei metadati, necessario per i filtri che si desidera rendere disponibili. Scrivere lo schema in formato JSON. Assegnare al file il nome
_metadata_schema.json
.Esempio:
{ "metadataSchema": [ { "name": "publication_year", "type": "integer" }, { "name": "title", "type": "string" } ] }
- Caricare il file
_metadata_schema.json
creato nel passo 1 al livello radice del bucket di storage degli oggetti che contiene i file di dati per una knowledge base. - Creare file JSON per associare i file di dati ai metadati predefiniti e fornire i valori dei metadati.
Esempio:
{ "metadataAttributes": { "publication_year": 2020 } }
È possibile associare uno o più file di dati o tutti i file in un bucket ai metadati. Per informazioni dettagliate sulle convenzioni dei nomi file JSON da utilizzare per le opzioni scelte, vedere Opzioni filtro metadati (nome file e posizione).
- Caricare i file JSON creati nel passo 3 nel bucket di storage degli oggetti che contiene i file di dati per una knowledge base. Per ciascuna opzione, assicurarsi di salvare il file nella posizione corretta nella gerarchia.
- Creare una knowledge base. Selezionare lo storage degli oggetti come tipo di data store e l'opzione per avviare automaticamente il job di inclusione.
Quando i file di dati vengono inclusi, gli agenti AI generativa creano una lista dei nomi dei metadati e dei valori che possono essere selezionati in una chat. Per visualizzare i nomi e i valori dei metadati inclusi, vedere Ottenere i dettagli di una Knowledge Base negli agenti AI generativa.
- Creare un agente con uno strumento RAG, selezionando la knowledge base creata nel passo 5. Nell'agente, selezionare l'opzione per creare automaticamente un endpoint. Per assistenza, vedere Creazione di un agente e Creazione di uno strumento RAG.
- In una finestra di chat, aggiungere uno o più filtri di metadati predefiniti e selezionare i valori da applicare. Vedere Uso di filtri metadati in una chat.
Per ulteriori informazioni sulla preparazione dei file JSON dei metadati per il caso d'uso e su come aggiungere e applicare i filtri di metadati in una sessione di chat, consultare le sezioni riportate di seguito.
Selezionare uno o più dei seguenti metodi che funzionano meglio per l'utente.
Metodo | Nome e posizione file | Uso |
---|---|---|
Includi i metadati per tutti i file in un bucket senza menzionare i nomi dei file. | Creare un file _common.metadata.json al livello radice dello storage degli oggetti. |
Utilizzare questo file per i metadati comuni a tutti i file nel bucket. Questo metodo consente di evitare l'immissione di duplicati di metadati tra gli oggetti. |
In un file creare una voce di metadati per ogni file in un bucket e includere i nomi dei file. | Creare un file _all.metadata.json al livello radice dello storage degli oggetti. |
Utilizzare questo metodo se si dispone di molti file e la creazione di un file che include tutti i nomi di file è più conveniente che creare un file di metadati per file. |
Creare un file di metadati per ogni file in un bucket. | Creare un file <file-name>.metadata.json per ogni file, a livello di file.
|
Utilizzare questo metodo quando i metadati sono diversi per ogni file e non ci sono molti file per i quali creare un file di metadati o se si sta automatizzando la creazione dei file di metadati. |
Aggiungere le intestazioni dei metadati dello storage degli oggetti a ogni file. | Aggiungere l'intestazione di metadati tramite la proprietà di metadati dello storage degli oggetti di ogni file. | Utilizzare questo metodo, se si dispone di poche proprietà dei metadati da includere. Si consiglia di utilizzare gli altri metodi con i file JSON, poiché i file sono più facili da aggiornare e gestire e le intestazioni dei metadati sono difficili da aggiornare. |
Per tutti i metodi, è necessario definire un file di schema dei metadati denominato _metadata_schema.json
a livello radice del bucket di storage degli oggetti.
Di seguito è riportata una gerarchia di esempio in cui salvare i file di metadati necessari.
I passi riportati di seguito utilizzano esempi per mostrare come formattare i file JSON dei metadati. Vedere anche Limiti per il filtro dei metadati.
Impossibile modificare o rimuovere i campi di metadati dopo l'inclusione dei dati della knowledge base. È possibile aggiungere nuovi campi per il limite consentito. Per rimuovere o aggiornare un campo, ricreare la knowledge base.
La procedura riportata di seguito presuppone che siano stati creati lo schema dei metadati richiesto e i file JSON facoltativi del filtro dei metadati, una knowledge base e un agente con uno strumento RAG e un endpoint.
descrizione; | Limitato |
---|---|
Numero massimo di voci in _all.metadata.json |
10.000 |
Numero massimo di campi di metadati che è possibile specificare per ogni file | 20 |
Numero massimo di elementi in un list_of_string type |
10 |
Lunghezza massima di un singolo elemento in un tipo list_of_string |
50 |
Lunghezza massima di una chiave metadati in caratteri | 25 |
Lunghezza massima del valore dei metadati in caratteri | 50 |
Aggiunta di metadati a un'intestazione di metadati dello storage degli oggetti
Aggiunta di dati con URL personalizzato a un bucket di storage degli oggetti
Clienti beta:
Se è stata creata una knowledge base nella fase beta, potrebbe essere necessario eliminare e ricreare l'origine dati per il funzionamento della funzione di gestione degli URL.
Assegnazione di un URL personalizzato a una citazione
metadata
per tale file.Questo argomento mostra come aggiungere o aggiornare l'oggetto metadata
tramite l'interfaccia CLI OCI.
- L'oggetto
metadata
che sostituisce la citazione predefinita deve avere il nomecustomized_url_source
. - È possibile avere un oggetto
metadata
con il nomecustomized_url_source
- Ogni
customized_url_source
può avere un solo URL. - I comandi del passo 5 funzionano sia per l'aggiunta che per l'aggiornamento dell'oggetto
metadata
, poiché sostituiscono il valore dell'oggettometadata
corrente. - Assicurarsi di passare i valori per l'oggetto
--metadata
con il formato mostrato nei comandi nel passo 5.