Meta Llama 3.3 (70B)

O modelo meta.llama-3.3-70b-instruct está disponível para inferência sob demanda, hospedagem dedicada e ajuste fino, além de oferecer melhor desempenho do que o Llama 3.1 70B e o Llama 3.2 90B para tarefas de texto.

Disponível nestas regiões comerciais

  • Leste do Brasil (São Paulo)
  • Centro da Alemanha (Frankfurt)
  • Sul da Índia (Hyderabad) (somente cluster de IA dedicado)
  • Centro do Japão (Osaka)
  • Centro da Arábia Saudita (Riad) (somente cluster de IA dedicado)
  • Leste dos EAU (Dubai) (Disponível como meta.llama-3.3-70b-instruct-fp8-dynamic apenas para cluster de IA dedicado e sem ajuste fino)
  • Sul do Reino Unido (Londres)
  • Centro-Oeste dos EUA (Chicago)

Disponível nesta região soberana

Esse modelo está disponível no EU Sovereign Central (Frankfurt) (somente cluster de IA dedicado) por meio dos seguintes pontos finais de API:

  • API de inferência:

    https://inference.generativeai.eu-frankfurt-2.oci.oraclecloud.eu

  • API de Gerenciamento:

    https://generativeai.eu-frankfurt-2.oci.oraclecloud.eu

Na API, para o nome do modelo e o OCID do modelo, use meta.llama-3.3-70b-instruct-fp8-dynamic.

O ajuste fino não está disponível para este modelo nesta região.

Saiba mais sobre a Oracle EU Sovereign Cloud.

Disponível nesta região do governo

Esse modelo está disponível no UK Gov South (Londres) (somente cluster de IA dedicado) por meio dos seguintes pontos finais de API:

  • API de inferência:

    https://inference.generativeai.uk-gov-london-1.oci.oraclegovcloud.uk

  • API de Gerenciamento:

    https://generativeai.uk-gov-london-1.oci.oraclegovcloud.uk

Na API, para o nome do modelo e o OCID do modelo, use meta.llama-3.3-70b-instruct-fp8-dynamic.

O ajuste fino não está disponível para este modelo nesta região.

Saiba mais sobre a Oracle Cloud Infrastructure Cloud do Setor Governamental do Reino Unido.

Principais Recursos

  • O modelo tem 70 bilhões de parâmetros.
  • Aceita entradas somente texto e produz saídas somente texto.
  • Usa o mesmo formato de prompt do Llama 3.1 70B.
  • Suporta o mesmo interpretador de código que o Llama 3.1 70B e mantém o tamanho de contexto do token 128.000. (Tamanho máximo de prompt + resposta: 128.000 tokens para cada execução.)
  • Em comparação com o seu antecessor Llama 3.1 70B, responde com melhor raciocínio, codificação, matemática e instrução-seguir. Consulte o placa de modelo Llama 3.3.
  • Disponível para inferência sob demanda, hospedagem dedicada e ajuste fino.
  • Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
  • Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 128.000 tokens.
  • Você pode ajustar esse modelo com seu conjunto de dados.

Modo sob Demanda

Esse modelo está disponível sob demanda em regiões não listadas como (somente cluster de IA dedicado). Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
Meta Llama 3.3 meta.llama-3.3-70b-instruct Large Meta
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Ajuste de Limite de Controle Dinâmico para Modo Sob Demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Esse ajuste depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento do ajuste.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido ao ajuste do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.

Cluster de IA Dedicado para o Modelo

Na lista de regiões anteriores, as regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA on-demand e dedicadas. Para a opção sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API. Saiba mais sobre o modo dedicado.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Meta Llama 3.3 (70B)
  • Nome do Modelo do OCI: meta.llama-3.3-70b-instruct
  • Tamanho da Unidade: Large Generic
  • Unidades Obrigatórias: 2
  • Tamanho da Unidade: Large Generic
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Meta - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x2
  • Para Ajuste Fino, Multiplique o Preço Unitário: x4
  • Nome do Limite: dedicated-unit-llama2-70-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 2
  • Para ajuste fino, solicite aumento de limite por: 4
  • Nome do Modelo: Meta Llama 3.3 (70B) (somente UAE East (Dubai))
  • Nome do Modelo do OCI: meta.llama-3.3-70b-instruct-fp8-dynamic
Não disponível para ajuste fino
  • Tamanho da Unidade: LARGE_GENERIC_V1
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Meta - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x2
  • Nome do Limite: dedicated-unit-llama2-70-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 2
Dica

  • Se você não tiver limites de cluster suficientes em sua tenancy para hospedar o modelo Meta Llama 3.3 (70B) em um cluster de IA dedicado, solicite que o limite dedicated-unit-llama2-70-count aumente em 2.

  • Para ajuste fino, solicite o limite dedicated-unit-llama2-70-count para aumentar em 4.

Regras de Ponto Final para Clusters

  • Um cluster de IA dedicado pode conter até 50 pontos finais.
  • Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
  • Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem Regras de Ponto Final
Large Generic
  • Modelo base: Para executar o modelo meta.llama-3.3-70b-instruct ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Large Generic (tamanho unitário).
  • Modelo personalizado: O mesmo se aplica a um modelo personalizado que é construído sobre meta.llama-3.3-70b-instruct: crie o número necessário de pontos finais em um cluster Small Cohere V2 (tamanho unitário).
LARGE_GENERIC_V1 (somente UAE East (Dubai))
  • Modelo base: Para executar o modelo meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ em vários pontos finais no UAE East (Dubai), crie quantos pontos finais forem necessários em um cluster LARGE_GENERIC_V1 (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar meta.llama-3.3-70b-instruct-fp8-dynamic no UAE East (Dubai); portanto, não é possível criar e hospedar modelos personalizados criados nessa base no UAE East (Dubai).
Dica

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Meta Llama 3.3 (70B) para diferentes casos de uso.

Datas de Liberação e Baixa

Modelo Data de Liberação Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
meta.llama-3.3-70b-instruct 2,025-2-7 Pelo menos um mês após o lançamento do 1o modelo de substituição. Pelo menos 6 meses após o lançamento do 1o modelo de substituição.
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos Cohere Command e -1 para os modelos Meta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.