Modos sob demanda e dedicados para modelos de IA generativa da OCI

A OCI Generative AI oferece dois modos de serviço de modelo: on-demand e dedicado. Revise esses tópicos para selecionar o modo mais adequado ao seu caso de uso.

Após revisar esta página, para os modos disponíveis para cada modelo, consulte Modelos de IA Generativa por Região e para saber os preços, consulte a página de preços.

Modo sob Demanda

O modo sob demanda permite que você use modelos básicos pré-treinados suportados sem criar um cluster de IA dedicado.

Principais recursos:

  • Pay as you go para cada chamada de inferência, quer você use o playground ou a API.
  • Comece a usar o Generative AI sem provisionar capacidade dedicada.
  • Adequado para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para modelos pré-treinados em regiões em que o modelo não está listado como somente cluster de IA dedicado.

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Essa alteração depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento da alteração.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Obsolescência do modo sob demanda

Quando um modelo é descontinuado no modo sob demanda, ele não está mais disponível para uso no playground do serviço Generative AI ou por meio da API de Inferência de IA Generativa.

Quando um modelo é descontinuado no modo sob demanda, ele permanece disponível no serviço de IA Generativa, mas tem um tempo definido para ser usado antes de ser descontinuado. Esse tempo é maior para o modo dedicado.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo sob demanda).

Modo Dedicado

No modo dedicado, você obtém capacidade de GPU dedicada para hospedagem e ajuste fino de modelos na OCI Generative AI. Os clusters de IA dedicados fornecem desempenho previsível e são adequados para cargas de trabalho de produção.

Você pode usar clusters de IA dedicados para:

  • Ajuste os modelos pré-treinados suportados do OCI Generative AI.
  • Hospede modelos pré-treinados do OCI Generative AI.
  • Hospede modelos personalizados criados por modelos pré-treinados suportados de ajuste fino.
  • Hospedam modelos importados compatíveis com o OCI Generative AI.

Para acessar um modelo no modo dedicado, crie um ponto de extremidade para o modelo em um cluster de IA dedicado.

O modo dedicado está disponível para modelos suportados nas regiões listadas para cada modelo.

Compromisso para Clusters de IA Dedicados

Para modelos pré-treinados e ajustados da OCI Generative AI, os clusters de IA dedicados exigem um compromisso de uso.

  • Hospedagem de clusters: compromisso mínimo de 744 horas por unidade por cluster de hospedagem.
  • Clusters de ajuste fino: Compromisso mínimo de 1 unidade-hora por job de ajuste fino. Dependendo do modelo, o ajuste fino pode exigir pelo menos 2 unidades.
Observação

Os modelos importados não exigem o compromisso de hospedagem de 744 horas por unidade. Se você criar um cluster de IA dedicado para hospedar um modelo importado, poderá hospedar o modelo sem se comprometer com o compromisso mínimo de hospedagem que se aplica aos modelos pré-treinados e ajustados do OCI Generative AI.

Baixa para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, você não pode mais criar um cluster de IA dedicado para o modelo descontinuado, mas um cluster de IA dedicado ativo que executa um modelo descontinuado continua em execução. Um modelo personalizado, que está sendo executado em um modelo descontinuado, também continua disponível para clusters de IA dedicados ativos e você pode continuar criando novos clusters de IA dedicados com um modelo personalizado que foi criado em um modelo descontinuado. No entanto, a Oracle oferece suporte limitado a esses cenários, e a engenharia da Oracle pode solicitar que você faça upgrade para um modelo suportado para resolver problemas relacionados ao seu modelo.

Para solicitar que um modelo permaneça ativo por mais tempo do que a data de baixa em um modo dedicado, crie um ticket de suporte.

Para os modelos do OCI Generative AI, consulte as datas de baixa do modelo (modo dedicado).

Obsolescência para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, ele permanece disponível no serviço Generative AI, mas tem um tempo definido para ser usado antes de ser descontinuado. O tempo de descontinuação do modo dedicado é maior que o tempo de descontinuação sob demanda do mesmo modelo.