Utilisation de la compression de mémoire à court terme pour les conversations

Dans l'API Conversations, lorsque la compression de mémoire à court terme est activée, OCI Generative AI compacte automatiquement l'historique de conversation précédent en une représentation plus petite au fur et à mesure de la croissance de la conversation. Cela permet de préserver le contexte important tout en réduisant l'utilisation et la latence des jetons.

Lors de l'envoi de demandes, vous n'avez pas besoin de gérer le compactage. Vous pouvez continuer à envoyer des demandes avec le même ID de conversation et le service gère le compactage.

Par exemple :

# first turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
    conversation=conversation1.id
)

# second turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="We also need the location to be within a two-hour drive from San Francisco.",
    conversation=conversation1.id
)

# third turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Please avoid destinations that are usually crowded on weekends.",
    conversation=conversation1.id
)

# fourth turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Now recommend three offsite options based on those preferences.",
    conversation=conversation1.id
)

Au fur et à mesure que la conversation se développe, OCI Generative AI peut compacter automatiquement les virages antérieurs tout en conservant les détails importants nécessaires pour les réponses ultérieures.

Documentation Oracle Cloud Infrastructure

Utilisation de la compression de mémoire à court terme pour les conversations