Meta Llama 3 (70B)

O modelo meta.llama-3-70b-instruct foi desativado.

Importante

O modelo meta.llama-3-70b-instruct agora é desativado. Consulte Desativando os Modelos para obter modelos de substituição sugeridos.

Sobre modelos aposentados

Baixa para Modo Sob Demanda: Quando um modelo é descontinuado no modo sob demanda, ele não está mais disponível para uso no playground do serviço Generative AI ou por meio da API de Inferência de IA Generativa.

Baixa para Modo Dedicado

Quando um modelo é descontinuado no modo dedicado, você não pode mais criar um cluster de IA dedicado para o modelo descontinuado, mas um cluster de IA dedicado ativo que executa um modelo descontinuado continua em execução. Um modelo personalizado, que está sendo executado em um modelo descontinuado, também continua disponível para clusters de IA dedicados ativos e você pode continuar criando novos clusters de IA dedicados com um modelo personalizado que foi criado em um modelo descontinuado. No entanto, a Oracle oferece suporte limitado a esses cenários, e a engenharia da Oracle pode solicitar que você faça upgrade para um modelo suportado para resolver problemas relacionados ao seu modelo.

Para solicitar que um modelo permaneça ativo por mais tempo do que a data de baixa em um modo dedicado, crie um ticket de suporte.

Disponível nestas regiões

Se você estiver executando esse modelo em um cluster de IA dedicado, esse modelo estará em uma destas regiões:

Leste do Brasil (São Paulo)
Centro da Alemanha (Frankfurt)
Sul do Reino Unido (Londres)
Centro-Oeste dos EUA (Chicago)

Acessar este Modelo

Acesse esse modelo por meio da Console, API e CLI:

Principais Recursos

Tamanho do Modelo: 70 bilhões de parâmetros
Tamanho do Contexto: 8.000 tokens (Tamanho máximo do prompt + da resposta: 8.000 tokens para cada execução.)
Conhecimento: tem um amplo conhecimento geral, desde a geração de ideias até o refinamento da análise de texto e a elaboração de conteúdo escrito, como e-mails, postagens de blog e descrições.

Modo sob Demanda

O modelo cohere.embed-english-light-image-v3.0 é desativado e, portanto, não está disponível no modo sob demanda.

Cluster de IA Dedicado para o Modelo

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Se você criou um cluster de IA dedicado para esse modelo, aqui estão as informações sobre o cluster:


Modelo Base	Cluster de Ajuste	Cluster de Hosts	Informações da Página de Preços	Aumento do Limite do Cluster de Solicitações
Nome do Modelo: Meta Llama 3 Nome do Modelo do OCI: `meta.llama-3-70b-instruct` (retirado)	Tamanho da Unidade: Large Generic Unidades Obrigatórias: 2	Tamanho da Unidade: Large Generic Unidades Obrigatórias: 1	Nome do produto da página de preços: Large Meta - Dedicated Para Hospedagem, Multiplique o Preço Unitário: x2 Para Ajuste Fino, Multiplique o Preço Unitário: x4	Nome do Limite: `dedicated-unit-llama2-70-count` Para Hospedagem, Solicitar Aumento de Limite por: 2 Para ajuste fino, solicite aumento de limite por: 4

Observação

A hospedagem do modelo Meta Llama 3 em um cluster de IA dedicado usa 2 contagens de unidades do limite de serviço, dedicated-unit-llama2-70-count.
O ajuste fino do modelo Meta Llama 3 em um cluster de IA dedicado usa 4 contagens de unidades do limite de serviço, dedicated-unit-llama2-70-count.

Regras de Ponto Final para Clusters

Um cluster de IA dedicado pode conter até 50 pontos finais.
Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.


Tamanho da Unidade do Cluster de Hospedagem	Regras de Ponto Final
Large Generic	Modelo base: Para executar o modelo `meta.llama-3-70b-instruct` ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Large Generic (tamanho unitário). Modelo personalizado: O mesmo se aplica a um modelo personalizado que é construído sobre `meta.llama-3-70b-instruct`: crie o número necessário de pontos finais em um cluster Large Generic (tamanho unitário).

Dica

Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite, endpoint-per-dedicated-unit-count. Consulte Solicitando um Aumento do Limite de Serviço e Limites de Serviço do Serviço Generative AI.

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Meta Llama 3 (70B) para diferentes casos de uso.

Datas de Liberação e Baixa


Modelo	Data de Liberação	Data de Aposentadoria Sob Demanda	Data de Baixa do Modo Dedicado
`meta.llama-3-70b-instruct`	2,024-6-4	`2,024-11-12`	`2,025-8-7`

Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.

Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos Cohere Command e -1 para os modelos Meta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.

Documentação do Oracle Cloud Infrastructure