xAI Grok 3
O modelo xai.grok-3 se destaca em casos de uso empresariais, como extração de dados, codificação e resumo de texto. Este modelo tem um profundo conhecimento de domínio em finanças, saúde, direito e ciência.
Os modelos xai.grok-3 e xai.grok-3-fast, ambos usam o mesmo modelo subjacente e oferecem qualidade de resposta idêntica. A diferença está em como eles são atendidos: o modelo xai.grok-3-fast é servido em uma infraestrutura mais rápida, oferecendo tempos de resposta significativamente mais rápidos do que o modelo xai.grok-3 padrão. O aumento da velocidade tem um custo mais alto por token de saída.
Os modelos xai.grok-3 e xai.grok-3-fast apontam para o mesmo modelo subjacente. Selecione xai.grok-3-fast para aplicativos sensíveis à latência e selecione xai.grok-3 para obter custo reduzido.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Acessar este Modelo
Principais Recursos
- Nome do modelo na OCI Generative AI:
xai.grok-3 - Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
- Somente Modo de Texto: insira o texto e obtenha uma saída de texto. (Sem suporte a imagem.)
- Conhecimento: Tem um profundo conhecimento em finanças, assistência médica, direito e ciência.
- Tamanho do Contexto: 131.072 tokens (o tamanho máximo do prompt + da resposta é de 131.072 tokens para manter o contexto). No playground, a duração da resposta é limitada a 16.000 tokens para cada execução, mas o contexto permanece 131.072.
- Excels em Estes Casos de Uso: Extração de dados, codificação e resumo de texto
- Chamada de Função: Sim, por meio da API.
- Saídas Estruturadas: Sim.
- Tem Motivo: Não.
-
Tokens de Entrada em Cache: Sim
- Contagem de tokens: Consulte o atributo
cachedTokensna API de Referência PromptTokensDetails. - Preço: Consulte a Página Precificação.
Observação importante: O recurso de entrada em cache está disponível no playground e na API. No entanto, essas informações só podem ser recuperadas por meio da API.
- Contagem de tokens: Consulte o atributo
- Knowledge Cutoff: novembro de 2024
Limites
- Tokens por minuto (TPM)
-
As chamadas de inferência para esse modelo são limitadas a 100.000 tokens por minuto (TPM) por cliente ou tenancy.
Para ver o limite atual de uma tenancy, na Console, navegue até Governança e Administração. Em Gerenciamento de Tenancy, selecione Limites, cotas e uso. Em Serviço, selecione IA Generativa e revise os limites do serviço. Para solicitar um aumento do limite de serviço, selecione Solicitar um aumento do limite de serviço. Para o aumento do limite de TPM, use o seguinte nome de limite:
grok-3-chat-tokens-per-minute-count.
Modo sob Demanda
Os modelos Grok só estão disponíveis no modo sob demanda.
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| xAI Grok 3 | xai.grok-3 |
xAI – Grok 3 Os preços são listados para:
|
-
Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
- Baixa barreira para começar a usar IA generativa.
- Ótimo para experimentação, prova de conceito e avaliação de modelo.
- Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte Datas de Baixa do Modelo (Modo Sob Demanda).
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 131.072 tokens para cada execução. No playground, o máximo de tokens de saída é limitado a 16.000 tokens para cada execução.
- Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
pum número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definapcomo 1 para considerar todos os tokens. - Penalidade de frequência
-
Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.
Essa multa pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Mín.: -2, Máx.: 2. Defina como 0 para desativar.
- Penalidade de presença
-
Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Mín.: -2, Máx.: 2. Defina como 0 para desativar.