Meta Llama 3.3 (70B)

O modelo meta.llama-3.3-70b-instruct está disponível para inferência sob demanda, hospedagem dedicada e ajuste fino, além de oferecer melhor desempenho do que o Llama 3.1 70B e o Llama 3.2 90B para tarefas de texto.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Principais Recursos

  • O modelo tem 70 bilhões de parâmetros.
  • Aceita entradas somente texto e produz saídas somente texto.
  • Usa o mesmo formato de prompt do Llama 3.1 70B.
  • Suporta o mesmo interpretador de código que o Llama 3.1 70B e mantém o tamanho de contexto do token 128.000. (Tamanho máximo de prompt + resposta: 128.000 tokens para cada execução.)
  • Em comparação com o seu antecessor Llama 3.1 70B, responde com melhor raciocínio, codificação, matemática e instrução-seguir. Consulte o placa de modelo Llama 3.3.
  • Disponível para inferência sob demanda, hospedagem dedicada e ajuste fino.
  • Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
  • Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 128.000 tokens.

Variantes Meta Llama 3.3

O modelo Meta Llama 3.3 (70B) é oferecido em duas variantes: o padrão meta.llama-3.3-70b-instruct e o otimizado meta.llama-3.3-70b-instruct-fp8-dynamic (versão FP8 dinâmica). Com exceção de algumas regiões, ambas as variantes são oferecidas nas mesmas regiões. A disponibilidade varia de acordo com a região e o modo (clusters de IA dedicados ou sob demanda). Consulte Modelos por Região para obter a lista completa e detalhes completos.

Variante padrão: meta.llama-3.3-70b-instruct
  • Desempenho: Fornece desempenho de precisão total.
  • Ajuste: Você pode ajustar esse modelo com seu conjunto de dados em regiões comerciais (OC1). O ajuste fino não é suportado para os modelos em regiões OC4 e OC19.
  • Quando usar: Melhor para tarefas de uso geral que exigem alta precisão, como raciocínio complexo, geração de conteúdo e qualquer caso de uso em que o ajuste fino seja necessário.
Variante FP8 Dinâmica: meta.llama-3.3-70b-instruct-fp8-dynamic
  • Desempenho: Usa FP8 (ponto flutuante de 8 bits), um formato numérico de precisão reduzida que representa números de ponto flutuante usando 8 bits para acelerar a inferência. Em comparação com formatos de 16 bits, como FP16, o FP8 reduz pela metade os requisitos de largura de banda da memória, o que pode aumentar a taxa de transferência computacional e reduzir o consumo de energia da GPU.
  • Eficiência: Otimizada para eficiência, essa variante oferece inferência mais rápida com perda de precisão mínima para muitas tarefas.
  • Ajuste: Não disponível.
  • Quando usar: Selecione essa variante para cenários de alto volume e sensíveis à latência, como aplicações em tempo real, atendimento em larga escala ou inferência otimizada para custos, em que velocidade e eficiência são mais importantes do que ajuste fino ou precisão máxima. Essa variante é melhor para ambientes de produção focados no throughput em vez de na personalização.
Observação

Para solicitações de API, sempre especifique o ID do modelo exato.

Modo sob Demanda

Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
Meta Llama 3.3 (70B) (Padrão) meta.llama-3.3-70b-instruct Large Meta
Meta Llama 3.3 (70B) (Dinâmico FP8) meta.llama-3.3-70b-instruct-fp8-dynamic Large Meta

Saiba mais sobre o Modo sob Demanda.

Cluster de IA Dedicado para o Modelo

Para modelos no modo sob demanda, nenhum cluster é necessário. Acesse-os por meio do playground da Console e da API. Para modelos disponíveis no modo dedicado, use pontos finais criados em clusters de IA dedicados. Saiba mais sobre o Modo Dedicado.

A tabela a seguir lista os tamanhos das unidades de hardware e os limites de serviço para clusters de IA dedicados.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Meta Llama 3.3 (70B) (Standard)
  • Nome do Modelo do OCI: meta.llama-3.3-70b-instruct
  • Tamanho da Unidade: Large Generic
  • Unidades Obrigatórias: 2

    Ajuste fino não disponível para EU Sovereign Central (Frankfurt) (OC19) e UK Gov South (Londres) (OC4))

  • Tamanho da Unidade: Large Generic
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Meta - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x2
  • Para Ajuste Fino, Multiplique o Preço Unitário: x4
  • Nome do Limite: dedicated-unit-llama2-70-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 2
  • Para ajuste fino, solicite aumento de limite por: 4
  • Nome do Modelo: Meta Llama 3.3 (70B) (Dinâmico FP8)
  • Nome do Modelo do OCI: meta.llama-3.3-70b-instruct-fp8-dynamic
Não disponível para ajuste fino

Para o UAE East (Dubai):

  • Tamanho da Unidade: LARGE_GENERIC_V1
  • Unidades Obrigatórias: 1

Para outras regiões disponíveis:

  • Tamanho da Unidade: Large Generic
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Meta - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x2
  • Nome do Limite: dedicated-unit-llama2-70-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 2
Dica

  • Se você não tiver limites de cluster suficientes na tenancy para hospedar o modelo Meta Llama 3.3 (70B) (padrão ou dinâmico fp8) em um cluster de IA dedicado, solicite o limite dedicated-unit-llama2-70-count para aumentar em 2.
  • Para ajuste fino, solicite o limite dedicated-unit-llama2-70-count para aumentar em 4.

Regras de Ponto Final para Clusters

  • Um cluster de IA dedicado pode conter até 50 pontos finais.
  • Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
  • Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem Regras de Ponto Final
Large Generic para meta.llama-3.3-70b-instruct
  • Modelo base: Para executar o modelo meta.llama-3.3-70b-instruct ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Large Generic (tamanho unitário).
  • Modelo personalizado: O mesmo se aplica a um modelo personalizado que é construído sobre meta.llama-3.3-70b-instruct: crie o número necessário de pontos finais em um cluster Large Generic (tamanho unitário).
Large Generic para meta.llama-3.3-70b-instruct-fp8-dynamic
  • Modelo base: Para executar o modelo meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Large Generic (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar meta.llama-3.3-70b-instruct-fp8-dynamic; portanto, não é possível criar e hospedar modelos personalizados criados nessa base.
LARGE_GENERIC_V1 para meta.llama-3.3-70b-instruct-fp8-dynamic (somente UAE East (Dubai))
  • Modelo base: Para executar o modelo meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ em vários pontos finais no UAE East (Dubai), crie quantos pontos finais forem necessários em um cluster LARGE_GENERIC_V1 (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar meta.llama-3.3-70b-instruct-fp8-dynamic; portanto, não é possível criar e hospedar modelos personalizados criados nessa base no UAE East (Dubai).
Dica

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Meta Llama 3.3 (70B) para diferentes casos de uso.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos Cohere Command e -1 para os modelos Meta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.