Meta Llama 3.3 (70B)
O modelo meta.llama-3.3-70b-instruct está disponível para inferência sob demanda, hospedagem dedicada e ajuste fino, além de oferecer melhor desempenho do que o Llama 3.1 70B e o Llama 3.2 90B para tarefas de texto.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Acessar este Modelo
Os pontos finais de API para todas as regiões comerciais, soberanas e governamentais suportadas são listados nos links API de Gerenciamento e API de Inferência. Você só pode acessar cada modelo por meio de suas regiões suportadas.
Principais Recursos
- O modelo tem 70 bilhões de parâmetros.
- Aceita entradas somente texto e produz saídas somente texto.
- Usa o mesmo formato de prompt do Llama 3.1 70B.
- Suporta o mesmo interpretador de código que o Llama 3.1 70B e mantém o tamanho de contexto do token 128.000. (Tamanho máximo de prompt + resposta: 128.000 tokens para cada execução.)
- Em comparação com o seu antecessor Llama 3.1 70B, responde com melhor raciocínio, codificação, matemática e instrução-seguir. Consulte o placa de modelo Llama 3.3.
- Disponível para inferência sob demanda, hospedagem dedicada e ajuste fino.
- Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
- Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 128.000 tokens.
Variantes Meta Llama 3.3
O modelo Meta Llama 3.3 (70B) é oferecido em duas variantes: o padrão meta.llama-3.3-70b-instruct e o otimizado meta.llama-3.3-70b-instruct-fp8-dynamic (versão FP8 dinâmica). Com exceção de algumas regiões, ambas as variantes são oferecidas nas mesmas regiões. A disponibilidade varia de acordo com a região e o modo (clusters de IA dedicados ou sob demanda). Consulte Modelos por Região para obter a lista completa e detalhes completos.
- Variante padrão:
meta.llama-3.3-70b-instruct -
- Desempenho: Fornece desempenho de precisão total.
- Ajuste: Você pode ajustar esse modelo com seu conjunto de dados em regiões comerciais (OC1). O ajuste fino não é suportado para os modelos em regiões OC4 e OC19.
- Quando usar: Melhor para tarefas de uso geral que exigem alta precisão, como raciocínio complexo, geração de conteúdo e qualquer caso de uso em que o ajuste fino seja necessário.
- Variante FP8 Dinâmica:
meta.llama-3.3-70b-instruct-fp8-dynamic -
- Desempenho: Usa FP8 (ponto flutuante de 8 bits), um formato numérico de precisão reduzida que representa números de ponto flutuante usando 8 bits para acelerar a inferência. Em comparação com formatos de 16 bits, como FP16, o FP8 reduz pela metade os requisitos de largura de banda da memória, o que pode aumentar a taxa de transferência computacional e reduzir o consumo de energia da GPU.
- Eficiência: Otimizada para eficiência, essa variante oferece inferência mais rápida com perda de precisão mínima para muitas tarefas.
- Ajuste: Não disponível.
- Quando usar: Selecione essa variante para cenários de alto volume e sensíveis à latência, como aplicações em tempo real, atendimento em larga escala ou inferência otimizada para custos, em que velocidade e eficiência são mais importantes do que ajuste fino ou precisão máxima. Essa variante é melhor para ambientes de produção focados no throughput em vez de na personalização.
Para solicitações de API, sempre especifique o ID do modelo exato.
Modo sob Demanda
Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| Meta Llama 3.3 (70B) (Padrão) | meta.llama-3.3-70b-instruct |
Large Meta |
| Meta Llama 3.3 (70B) (Dinâmico FP8) | meta.llama-3.3-70b-instruct-fp8-dynamic |
Large Meta |
Saiba mais sobre o Modo sob Demanda.
Cluster de IA Dedicado para o Modelo
Para modelos no modo sob demanda, nenhum cluster é necessário. Acesse-os por meio do playground da Console e da API. Para modelos disponíveis no modo dedicado, use pontos finais criados em clusters de IA dedicados. Saiba mais sobre o Modo Dedicado.
A tabela a seguir lista os tamanhos das unidades de hardware e os limites de serviço para clusters de IA dedicados.
| Modelo Base | Cluster de Ajuste | Cluster de Hosts | Informações da Página de Preços | Aumento do Limite do Cluster de Solicitações |
|---|---|---|---|---|
|
|
|
|
|
|
Não disponível para ajuste fino |
Para o UAE East (Dubai):
Para outras regiões disponíveis:
|
|
|
- Se você não tiver limites de cluster suficientes na tenancy para hospedar o modelo Meta Llama 3.3 (70B) (padrão ou dinâmico fp8) em um cluster de IA dedicado, solicite o limite
dedicated-unit-llama2-70-countpara aumentar em 2. - Para ajuste fino, solicite o limite
dedicated-unit-llama2-70-countpara aumentar em 4.
Regras de Ponto Final para Clusters
- Um cluster de IA dedicado pode conter até 50 pontos finais.
- Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
- Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
| Tamanho da Unidade do Cluster de Hospedagem | Regras de Ponto Final |
|---|---|
Large Generic para meta.llama-3.3-70b-instruct |
|
Large Generic para meta.llama-3.3-70b-instruct-fp8-dynamic |
|
LARGE_GENERIC_V1 para meta.llama-3.3-70b-instruct-fp8-dynamic (somente UAE East (Dubai)) |
|
-
Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
-
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite,
endpoint-per-dedicated-unit-count. Consulte Solicitando um Aumento do Limite de Serviço e Limites de Serviço do Serviço Generative AI.
Benchmarks de Desempenho do Cluster
Revise os benchmarks de desempenho do cluster do Meta Llama 3.3 (70B) para diferentes casos de uso.
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.
- Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída.
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
pum número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definapcomo 1 para considerar todos os tokens. - Top k
-
Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do
top k. Um valor alto parakgera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelosCohere Commande -1 para os modelosMeta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método. - Penalidade de frequência
-
Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.
Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.
- Penalidade de presença
-
Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.
- Pré-implantado
-
Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.
Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.
Advertência
O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.