Modos sob demanda e dedicados para modelos de IA generativa da OCI

A OCI Generative AI oferece seu modelo em dois tipos de modos de atendimento: on-demand e dedicado. Revise os tópicos a seguir para ver qual modo se adapta aos seus casos de uso.

Modo sob Demanda

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Essa alteração depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento da alteração.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Baixa para Modo Sob Demanda

Quando um modelo é descontinuado no modo sob demanda, ele não está mais disponível para uso no playground do serviço Generative AI ou por meio da API de Inferência de IA Generativa.

Obsolescência do modo sob demanda

Quando um modelo é descontinuado no modo sob demanda, ele permanece disponível no serviço de IA Generativa, mas tem um tempo definido para ser usado antes de ser descontinuado. Esse tempo é maior para o modo dedicado.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo sob demanda).

Modo Dedicado

  • Você obtém um conjunto dedicado de GPUs para os clusters de IA dedicados.
  • Você pode criar modelos personalizados nos clusters de IA dedicados, ajustando um subconjunto dos Modelos Básicos Pré-treinados Oferecidos no Serviço Generative AI listados para ajuste fino.
  • Você pode hospedar réplicas dos modelos básicos e ajustados nos clusters de IA dedicados.
  • Você se compromete com antecedência a determinadas horas de uso dos clusters de IA dedicados. Para preços, consulte a página de preços.
  • Disponível para os modelos pré-treinados em todas as regiões listadas.
  • Você obtém desempenho previsível e é adequado para cargas de trabalho de produção.
Observação

Para acessar um modelo por meio do modo dedicado, você deve criar um ponto final para esse modelo em um cluster de IA dedicado.

Baixa para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, você não pode mais criar um cluster de IA dedicado para o modelo descontinuado, mas um cluster de IA dedicado ativo que executa um modelo descontinuado continua em execução. Um modelo personalizado, que está sendo executado em um modelo descontinuado, também continua disponível para clusters de IA dedicados ativos e você pode continuar criando novos clusters de IA dedicados com um modelo personalizado que foi criado em um modelo descontinuado. No entanto, a Oracle oferece suporte limitado a esses cenários, e a engenharia da Oracle pode solicitar que você faça upgrade para um modelo suportado para resolver problemas relacionados ao seu modelo.

Para solicitar que um modelo permaneça ativo por mais tempo do que a data de baixa em um modo dedicado, crie um ticket de suporte.

Obsolescência para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, ele permanece disponível no serviço Generative AI, mas tem um tempo definido para ser usado antes de ser descontinuado. O tempo de descontinuação do modo dedicado é maior que o tempo de descontinuação sob demanda do mesmo modelo.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo dedicado).