Utilisation du compactage de mémoire à court terme pour les conversations

Dans l'API Conversations, lorsque le compactage de mémoire à court terme est activé, le service d'intelligence artificielle générative pour OCI compacte automatiquement l'historique des conversations antérieures en une représentation plus petite au fur et à mesure de l'augmentation de la conversation. Cela permet de préserver le contexte important tout en réduisant l'utilisation et la latence des jetons.

Lors de l'envoi des demandes, vous n'avez pas besoin de gérer le compactage. Vous pouvez continuer à envoyer des demandes avec le même ID conversation et le service traite le compactage.

Exemple :

# first turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
    conversation=conversation1.id
)

# second turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="We also need the location to be within a two-hour drive from San Francisco.",
    conversation=conversation1.id
)

# third turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Please avoid destinations that are usually crowded on weekends.",
    conversation=conversation1.id
)

# fourth turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Now recommend three offsite options based on those preferences.",
    conversation=conversation1.id
)

Au fur et à mesure de l'augmentation de la conversation, OCI Generative AI peut compacter automatiquement les virages antérieurs tout en conservant les détails importants nécessaires pour les réponses ultérieures.

Documentation sur Oracle Cloud Infrastructure

Utilisation du compactage de mémoire à court terme pour les conversations