Meta Llama 4 Maverick (Novo)
Os modelos Llama 4 aproveitam uma arquitetura de Mistura de Especialistas (MoE), permitindo recursos de processamento eficientes e avançados. Esses modelos são otimizados para compreensão multimodal, tarefas multilíngues, codificação, chamada de ferramentas e sistemas agênticos de alimentação. Consulte as seções a seguir para obter detalhes sobre o modelo meta.llama-4-maverick-17b-128e-instruct-fp8
.
Disponível nestas regiões
- Leste do Brasil (São Paulo) (somente cluster de IA dedicado)
- Sul da Índia (Hyderabad) (somente cluster de IA dedicado)
- Centro do Japão (Osaka) (somente cluster de IA dedicado)
- Centro da Arábia Saudita (Riad) (somente cluster de IA dedicado)
- Sul do Reino Unido (Londres) (somente cluster de IA dedicado)
- Centro-Oeste dos EUA (Chicago)
Acessar este Modelo
Principais Recursos
- Série Meta Llama 4
-
- Recursos multimodais: os modelos Llama 4 são nativamente multimodais, capazes de processar e integrar vários tipos de dados, incluindo texto e imagens. Inserir texto e imagens e obter uma saída de texto.
- Suporte Multilíngue: treinado em dados que abrangem 200 idiomas, com suporte de ajuste fino para 12 idiomas, incluindo árabe, inglês, francês, alemão, hindi, indonésio, italiano, português, espanhol, tagalog, tailandês e vietnamita. A compreensão da imagem é limitada ao inglês.
- Implantação Eficiente: pegada de GPU pequena.
- Knowledge Cutoff: agosto de 2024
- Restrições de Uso: A Política de Uso Aceitável do Lhama 4 restringe seu uso na União Europeia (UE).
- Meta Llama 4 Maverick
-
- Arquitetura: Semelhante ao Meta Llama Scout, este modelo possui 17 bilhões de parâmetros ativos, mas dentro de uma estrutura maior de cerca de 400 bilhões de parâmetros, usando 128 especialistas.
- Janela de Contexto: Suporta um tamanho de contexto de 512.000 tokens. (O comprimento máximo de prompt + resposta é de 512.000 tokens para cada execução.)
- Desempenho: Corresponde a modelos avançados em tarefas de codificação e raciocínio.
- Outras Funcionalidades
-
- Inferência on-demand disponível em Chicago.
- Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
- Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 512.000 tokens.
- Na Console, insira uma imagem
.png
ou.jpg
de 5 MB ou menos. - Para API, insira uma imagem codificada em
base64
em cada execução. Uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.
Modo sob Demanda
Esse modelo está disponível sob demanda em regiões não listadas como (somente cluster de IA dedicado). Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.
Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
---|---|---|
Meta Llama 4 Maverick | meta.llama-4-maverick-17b-128e-instruct-fp8 |
Meta Llama 4 Maverick |
Cluster de IA Dedicado para o Modelo
Na lista de regiões anteriores, as regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA on-demand e dedicadas. Para a opção sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API. Saiba mais sobre o modo dedicado.
Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.
Modelo Base | Cluster de Ajuste | Cluster de Hosts | Informações da Página de Preços | Aumento do Limite do Cluster de Solicitações |
---|---|---|---|---|
|
Não disponível para ajuste fino |
|
|
|
Se você não tiver limites de cluster suficientes em sua tenancy para hospedar o modelo Meta Llama 4 Maverick em um cluster de IA dedicado, solicite que o limite dedicated-unit-llama2-70-count
aumente em 4.
Regras de Ponto Final para Clusters
- Um cluster de IA dedicado pode conter até 50 pontos finais.
- Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
- Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem | Regras de Ponto Final |
---|---|
Large Generic 2 |
|
-
Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
-
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite,
endpoint-per-dedicated-unit-count
. Consulte Solicitando um Aumento do Limite de Serviço e Limites de Serviço do Serviço Generative AI.
Benchmarks de Desempenho do Cluster
Revise os benchmarks de desempenho do cluster do Meta Llama 4 Maverick para diferentes casos de uso.
Datas de Liberação e Baixa
Modelo | Data de Liberação | Data de Aposentadoria Sob Demanda | Data de Baixa do Modo Dedicado |
---|---|---|---|
meta.llama-4-maverick-17b-128e-instruct-fp8
|
2,025-5-14 | Pelo menos um mês após o lançamento do 1o modelo de substituição. | Pelo menos 6 meses após o lançamento do 1o modelo de substituição. |
Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.
- Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída.
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
p
um número decimal positivo entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definap
como 1 para considerar todos os tokens. - Top k
-
Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do
top k
. Um valor alto parak
gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelosCohere Command
e -1 para os modelosMeta Llama
, o que significa que o modelo deve considerar todos os tokens e não usar esse método. - Penalidade de frequência
-
Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.
Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.
- Penalidade de presença
-
Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Defina como 0 para desativar.
- Pré-implantado
-
Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.
Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.
Advertência
O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.