Utilizzo della compattazione della memoria a breve termine per le conversazioni

Nell'API Conversations, quando la compattazione della memoria a breve termine è abilitata, OCI Generative AI compatta automaticamente la cronologia delle conversazioni precedenti in una rappresentazione più piccola man mano che la conversazione cresce. Ciò consente di preservare un contesto importante riducendo al contempo l'uso e la latenza del token.

Quando si inviano richieste, non è necessario gestire la compattazione. È possibile continuare a inviare richieste con lo stesso ID conversazione e il servizio gestisce la compattazione.

Esempio:

# first turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
    conversation=conversation1.id
)

# second turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="We also need the location to be within a two-hour drive from San Francisco.",
    conversation=conversation1.id
)

# third turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Please avoid destinations that are usually crowded on weekends.",
    conversation=conversation1.id
)

# fourth turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Now recommend three offsite options based on those preferences.",
    conversation=conversation1.id
)

Man mano che la conversazione cresce, OCI Generative AI può compattare automaticamente i turni precedenti, preservando al contempo i dettagli importanti necessari per le risposte successive.

Documentazione dell'infrastruttura Oracle Cloud

Utilizzo della compattazione della memoria a breve termine per le conversazioni