Kurzzeit-Speicherkomprimierung für Unterhaltungen verwenden

Wenn in der Conversations-API die Kurzzeitgedächtniskomprimierung aktiviert ist, komprimiert OCI Generative AI den früheren Unterhaltungsverlauf automatisch in eine kleinere Darstellung, wenn die Unterhaltung wächst. Dies trägt dazu bei, wichtigen Kontext beizubehalten und gleichzeitig die Tokenverwendung und -latenz zu reduzieren.

Beim Senden von Anfragen müssen Sie die Verdichtung nicht verwalten. Sie können mit dem Senden von Anforderungen mit derselben Konversations-ID fortfahren, und der Service verarbeitet die Komprimierung.

Beispiel:

# first turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
    conversation=conversation1.id
)

# second turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="We also need the location to be within a two-hour drive from San Francisco.",
    conversation=conversation1.id
)

# third turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Please avoid destinations that are usually crowded on weekends.",
    conversation=conversation1.id
)

# fourth turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Now recommend three offsite options based on those preferences.",
    conversation=conversation1.id
)

Während die Konversation wächst, kann OCI Generative AI frühere Kurven automatisch komprimieren und dabei die wichtigen Details beibehalten, die für spätere Antworten erforderlich sind.

Oracle Cloud Infrastructure-Dokumentation

Kurzzeit-Speicherkomprimierung für Unterhaltungen verwenden