Meta Llama 4 Scout

Os modelos Llama 4 aproveitam uma arquitetura de Mistura de Especialistas (MoE), permitindo recursos de processamento eficientes e avançados. Esses modelos são otimizados para compreensão multimodal, tarefas multilíngues, codificação, chamada de ferramentas e sistemas agênticos de alimentação. Consulte as seções a seguir para obter detalhes sobre o modelo meta.llama-4-scout-17b-16e-instruct.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Acessar este Modelo

Você pode acessar esse modelo por meio de:

Observação

As tintas de API listam os pontos finais para todas as regiões comerciais, soberanas e governamentais suportadas.

Principais Recursos

Série Meta Llama 4

Recursos multimodais: os modelos Llama 4 são nativamente multimodais, capazes de processar e integrar vários tipos de dados, incluindo texto e imagens. Inserir texto e imagens e obter uma saída de texto.
Suporte Multilíngue: treinado em dados que abrangem 200 idiomas, com suporte de ajuste fino para 12 idiomas, incluindo árabe, inglês, francês, alemão, hindi, indonésio, italiano, português, espanhol, tagalog, tailandês e vietnamita. A compreensão da imagem é limitada ao inglês.
Implantação Eficiente: pegada de GPU pequena.
Knowledge Cutoff: agosto de 2024
Restrições de Uso: A Política de Uso Aceitável do Lhama 4 restringe seu uso na União Europeia (UE).

Meta Llama 4 Escoteiro

Arquitetura: Apresenta 17 bilhões de parâmetros ativos em um total de cerca de 109 bilhões de parâmetros, usando 16 especialistas.
Janela de Contexto: Suporta um tamanho de contexto de 192.000 tokens. (O comprimento máximo de prompt + resposta é de 192.000 tokens para cada execução.)
Implantação: Projetada para uma operação eficiente em um pequeno espaço de GPU.
Desempenho: Mostra melhor desempenho para os modelos anteriores em vários benchmarks.

Outras Funcionalidades

Inferência on-demand disponível em Chicago.
Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 192.000 tokens.
Na Console, insira uma imagem .png ou .jpg de 5 MB ou menos.
Para API, insira uma imagem codificada em base64 em cada execução. Uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.

Modo sob Demanda

Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.


Nome do Modelo	Nome do Modelo do OCI	Nome do Produto da Página de Precificação
Meta Llama 4 Scout	`meta.llama-4-scout-17b-16e-instruct`	Meta Llama 4 Scout

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:

Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
Baixa barreira para começar a usar IA generativa.
Ótimo para experimentação, prova de conceito e avaliação de modelo.
Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Importante

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Essa alteração depende dos seguintes fatores:

O throughput máximo atual suportado pelo modelo de destino.
Qualquer capacidade do sistema não utilizada no momento da alteração.
O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Cluster de IA Dedicado para o Modelo

Para modelos no modo sob demanda, nenhum cluster é necessário. Acesse-os por meio do playground da Console e da API. Para modelos disponíveis no modo dedicado, use pontos finais criados em clusters de IA dedicados. Saiba mais sobre o Modo Dedicado.

Este modelo não está disponível para ajuste fino. Para saber as formas de unidade de hardware, as regiões disponíveis, os limites de serviço, as contagens de unidades de IA e a estimativa de custo de um cluster de IA dedicado que hospeda esse modelo, consulte Formas de Unidade de Hardware por Região.

Formas Genéricas Legadas

Importante

As formas Meta genéricas legadas estão sendo descontinuadas do Generative AI. Durante o período de desativação, essas formas permanecem disponíveis apenas na API. Se você usar a API, poderá ver as formas genéricas legadas e as novas formas de unidade de hardware até que as formas genéricas legadas sejam removidas do serviço.

Use esta seção somente se você tiver um cluster de IA dedicado que use uma forma Meta genérica legada ou se você usar a API para criar um cluster com uma forma Meta genérica legada durante o período de baixa. Para novos clusters de IA dedicados, use as formas de unidade de hardware listadas em Formas de Unidade de Hardware por Região.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.


Modelo Base	Cluster de Ajuste	Cluster de Hosts	Informações da Página de Preços	Aumento do Limite do Cluster de Solicitações
Nome do Modelo: Meta Llama 4 Scout Nome do Modelo do OCI: `meta.llama-4-scout-17b-16e-instruct`	Não disponível para ajuste fino	Para o UAE Central (Abu Dhabi): Tamanho da Unidade: LARGE_GENERIC_V4 Unidades Obrigatórias: 1 Para outras regiões disponíveis: Tamanho da Unidade: Large Generic V2 Unidades Obrigatórias: 1	Nome do produto da página de preços: Large Meta - Dedicated Para Hospedagem, Multiplique o Preço Unitário: x2	Nome do Limite: `dedicated-unit-llama2-70-count` Para Hospedagem, Solicitar Aumento de Limite por: 2

Regras de Ponto Final para Clusters

Um cluster de IA dedicado pode conter até 50 pontos finais.
Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.

Dica

Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite, endpoint-per-dedicated-unit-count. Consulte Criando uma Solicitação de Aumento de Limite e Limites do Serviço para IA Generativa.

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Meta Llama 4 Scout para diferentes casos de uso.

Datas de Lançamento e Baixa do OCI

Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.

Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal positivo entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos Cohere Command e -1 para os modelos Meta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Defina como 0 para desativar.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.

Documentação do Oracle Cloud Infrastructure

Meta Llama 4 Scout

Regiões para este Modelo

Acessar este Modelo

Principais Recursos

Modo sob Demanda

Cluster de IA Dedicado para o Modelo

Formas Genéricas Legadas

Regras de Ponto Final para Clusters

Benchmarks de Desempenho do Cluster

Datas de Lançamento e Baixa do OCI

Parâmetros de Modelo