Sobre a Baixa do Modelo

A OCI Generative AI aposenta seus grandes modelos de linguagem (LLMs) com base no modo de tipo e serviço de cada modelo. Os LLMs atendem às solicitações do usuário em um modo sob demanda ou dedicado. Revise as seções a seguir para saber mais sobre cada modo de serviço e como você pode ser notificado antes de um modelo se aposentar.

Modo sob Demanda

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Ajuste de Limite de Controle Dinâmico para Modo Sob Demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Esse ajuste depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento do ajuste.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido ao ajuste do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.

Baixa para Modo Sob Demanda

Quando um modelo é descontinuado no modo sob demanda, ele não está mais disponível para uso no playground do serviço Generative AI ou por meio da API de Inferência de IA Generativa.

Obsolescência do modo sob demanda

Quando um modelo é descontinuado no modo sob demanda, ele permanece disponível no serviço de IA Generativa, mas tem um tempo definido para ser usado antes de ser descontinuado. Esse tempo é maior para o modo dedicado.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo sob demanda).

Modo Dedicado

  • Você obtém um conjunto dedicado de GPUs para os clusters de IA dedicados.
  • Você pode criar modelos personalizados nos clusters de IA dedicados, ajustando um subconjunto dos Modelos Básicos Pré-treinados no Serviço Generative AI listados para ajuste fino.
  • Você pode hospedar réplicas dos modelos básicos e ajustados nos clusters de IA dedicados.
  • Você se compromete com antecedência a determinadas horas de uso dos clusters de IA dedicados. Para preços, consulte a página de preços.
  • Disponível para os modelos pré-treinados em todas as regiões listadas.
  • Você obtém desempenho previsível e é adequado para cargas de trabalho de produção.
Baixa para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, você não pode mais criar um cluster de IA dedicado para o modelo descontinuado, mas um cluster de IA dedicado ativo que executa um modelo descontinuado continua em execução. Um modelo personalizado, que está sendo executado em um modelo descontinuado, também continua disponível para clusters de IA dedicados ativos e você pode continuar criando novos clusters de IA dedicados com um modelo personalizado que foi criado em um modelo descontinuado. No entanto, a Oracle oferece suporte limitado a esses cenários, e a engenharia da Oracle pode solicitar que você faça upgrade para um modelo suportado para resolver problemas relacionados ao seu modelo.

Para solicitar que um modelo permaneça ativo por mais tempo do que a data de baixa em um modo dedicado, crie um ticket de suporte.

Obsolescência para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, ele permanece disponível no serviço Generative AI, mas tem um tempo definido para ser usado antes de ser descontinuado. O tempo de descontinuação do modo dedicado é maior que o tempo de descontinuação sob demanda do mesmo modelo.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo dedicado).

Obtendo Notificações para Datas de Baixa

Você pode se inscrever no serviço OCI Notifications para ser notificado sobre datas de baixa do modelo. Ao se inscrever, você recebe mensagens de descontinuação e desativação do modelo com a seguinte cadência:

  • Modo Sob Demanda: 30 e 14 dias antes da data de baixa do modelo. (2 notificações)
  • Modo Dedicado: 180, 90, 60, 30 e 14 dias antes da data de baixa do modelo. (5 notificações)

Saiba como se inscrever nos Anúncios da OCI para receber notificações. Ao criar o anúncio, para o serviço, selecione Serviço Oracle Cloud Infrastructure Generative AI.