Usando Compactação de Memória de Curto Prazo para Conversas

Na API Conversations, quando a compactação de memória de curto prazo é ativada, a OCI Generative AI compacta automaticamente o histórico de conversas anteriores em uma representação menor à medida que a conversa cresce. Isso ajuda a preservar o contexto importante, reduzindo o uso e a latência do token.

Ao enviar solicitações, você não precisa gerenciar a compactação. É possível continuar enviando solicitações com o mesmo ID de conversa, e o serviço trata a compactação.

Exemplo:

# first turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
    conversation=conversation1.id
)

# second turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="We also need the location to be within a two-hour drive from San Francisco.",
    conversation=conversation1.id
)

# third turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Please avoid destinations that are usually crowded on weekends.",
    conversation=conversation1.id
)

# fourth turn
response = client.responses.create(
    model="openai.gpt-oss-120b",
    input="Now recommend three offsite options based on those preferences.",
    conversation=conversation1.id
)

À medida que a conversa cresce, a OCI Generative AI pode compactar turnos anteriores automaticamente, preservando os detalhes importantes necessários para respostas posteriores.

Documentação do Oracle Cloud Infrastructure

Usando Compactação de Memória de Curto Prazo para Conversas