Usando Compactação de Memória de Curto Prazo para Conversas
Na API Conversations, quando a compactação de memória de curto prazo é ativada, a OCI Generative AI compacta automaticamente o histórico de conversas anteriores em uma representação menor à medida que a conversa cresce. Isso ajuda a preservar o contexto importante, reduzindo o uso e a latência do token.
Ao enviar solicitações, você não precisa gerenciar a compactação. É possível continuar enviando solicitações com o mesmo ID de conversa, e o serviço trata a compactação.
Exemplo:
# first turn
response = client.responses.create(
model="openai.gpt-oss-120b",
input="I'm planning a team offsite. We prefer outdoor activities, a moderate budget, and vegetarian-friendly food options.",
conversation=conversation1.id
)
# second turn
response = client.responses.create(
model="openai.gpt-oss-120b",
input="We also need the location to be within a two-hour drive from San Francisco.",
conversation=conversation1.id
)
# third turn
response = client.responses.create(
model="openai.gpt-oss-120b",
input="Please avoid destinations that are usually crowded on weekends.",
conversation=conversation1.id
)
# fourth turn
response = client.responses.create(
model="openai.gpt-oss-120b",
input="Now recommend three offsite options based on those preferences.",
conversation=conversation1.id
)
À medida que a conversa cresce, a OCI Generative AI pode compactar turnos anteriores automaticamente, preservando os detalhes importantes necessários para respostas posteriores.