Google Gemini 2.5 Flash
O modelo Gemini 2.5 Flash (google.gemini-2.5-flash) é um modelo de raciocínio rápido multimodal que oferece um equilíbrio de preço, desempenho e uma ampla gama de recursos, incluindo recursos de pensamento. Os modelos Gemini 2.5 Flash e Gemini 2.5 Flash-Lite são ambos modelos eficientes. O Flash-Lite é otimizado para baixo custo e desempenho mais rápido em tarefas de alto volume e menos complexas. O Gemini 2.5 Flash oferece um equilíbrio de velocidade e inteligência para aplicações mais complexas.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Principais Recursos
- Nome do modelo na OCI Generative AI:
google.gemini-2.5-flash - Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
- Suporte a Multimodais: insira texto, código e imagens e obtenha uma saída de texto. Documentos, entradas de arquivos de áudio e vídeo são suportados apenas por meio da API. Consulte Document Understanding, Image Understanding, Audio Understanding e Video Understanding.
- Conhecimento: Tem um profundo conhecimento de domínio em ciência, matemática e código.
- Tamanho do Contexto: Um milhão de tokens
- Máximo de Tokens de Entrada: 1.048.576 (Console e API)
- Máximo de Tokens de Saída: 65.536 (padrão) (Console e API)
- Excels em Estes Casos de Uso: Para tarefas diárias de uso geral que exigem um modelo rápido e econômico com fortes habilidades de raciocínio. Por exemplo, para a maioria dos aplicativos voltados para o usuário, em que é necessária uma resposta rápida, mas inteligente.
- Tem Argumento: Sim. Inclui raciocínio visual e de texto e compreensão de imagens. Para problemas de raciocínio, aumente o máximo de tokens de saída. Consulte Parâmetros de Modelo.
- Knowledge Cutoff: janeiro de 2025
Consulte a tabela a seguir para ver os recursos suportados na Plataforma Google Vertex AI para OCI Generative, com links para cada recurso.
| Recurso | Suportado? |
|---|---|
| Execução do código | Sim |
| Ajuste | Não |
| Instruções do sistema | Sim |
| Saída estruturada | Sim |
| Previsão do lote | Não |
| Chamada de função | Sim |
| Tokens de Contagem | Não |
| Pensando | Sim, mas desativar o processo de pensamento não é suportado. |
| Cache de contexto | Sim, o modelo pode armazenar em cache os tokens de entrada, mas esse recurso não é controlado por meio da API. |
| Mecanismo RAG da Vertex AI | Não |
| Conclusões de chat | Sim |
| Aterramento | Não |
Para obter detalhes sobre os principais recursos, consulte a documentação do Google Gemini 2.5 Flash e a placa de modelo do Gemini 2.5 Flash.
Compreensão de Documentos
- Tipo de Conteúdo Suportado
-
- Console: não disponível
- API: Os arquivos suportados são
text/plainpara arquivos de texto eapplication/pdfpara arquivos PDF ao usar dados em linha.
- Entradas de Documento Suportadas para a API
-
- URL: Converta um formato de documento suportado em uma versão codificada em
base64do documento. - URI: Submeta o documento em um formato Uniform Resource Identifier (URI) para que, sem fazer upload do arquivo, o modelo possa acessar o arquivo.
- URL: Converta um formato de documento suportado em uma versão codificada em
- Detalhes Técnicos
-
Consulte Document Understanding na documentação da API Gemini.
Compreensão da Imagem
- Tamanho da Imagem
-
- Console: Tamanho máximo da imagem: 5 MB
- API: Máximo de imagens por prompt: 3.000 e tamanho máximo da imagem antes da codificação: 7 MB
- Entradas de Imagem Suportadas
-
- Formatos da console:
pngejpeg - API: Na operação Chat, submeta uma versão codificada
base64de uma imagem. Por exemplo, uma imagem 512 x 512 normalmente é convertida em cerca de 1.610 tokens. Os tipos de MIME suportados são:image/png,image/jpeg,image/webp,image/heiceimage/heif. Para o formato, consulte Referência ImageContent.
- Formatos da console:
- Detalhes Técnicos
- Suporta detecção de objeto e segmentação. Consulte Image Understanding na documentação da API Gemini.
Compreensão de Áudio
- Formatos de Áudio Suportados
-
- Console: não disponível
- API: Os arquivos de mídia suportados são
audio/wav,audio/mp3,audio/aiff,audio/aac,audio/oggeaudio/flac.
- Entradas de Áudio Suportadas para a API
-
- URL: Converta um formato de áudio suportado em uma versão codificada em
base64do arquivo de áudio. - URI: Envie o áudio em um formato Uniform Resource Identifier (URI) para que, sem fazer upload do arquivo, o modelo possa acessar o áudio.
- URL: Converta um formato de áudio suportado em uma versão codificada em
- Detalhes Técnicos
-
- Conversão de Token Cada segundo de áudio representa 32 tokens, portanto, um minuto de áudio corresponde a 1.920 tokens.
- Detecção de Não-Fala: O modelo pode reconhecer componentes que não são de fala, como canções de pássaros e sirenes.
- Comprimento Máximo: O comprimento máximo de áudio suportado em um único prompt é 9.5 ⁇ hours. Você pode enviar vários arquivos, desde que sua duração combinada permaneça abaixo de 9,5 horas.
- Redução da amostra: O modelo reduz os arquivos de áudio para uma resolução de 16 ⁇ kbps.
- Mesclagem de Canais: Se uma origem de áudio tiver vários canais, o modelo os mesclará em um único canal.
Consulte Audio Understanding na documentação da API Gemini.
Compreensão de vídeo
- Formatos de Áudio Suportados
-
- Console: não disponível
- API: Os arquivos de mídia suportados são
video/mp4,video/mpeg,video/mov,video/avi,video/x-flv,video/mpg,video/webm,video/wmvevideo/3gpp.
- Entradas de Vídeo Suportadas para a API
-
- Upload (URL) codificado em Base64: Converta um formato de vídeo suportado em
base64. O payload máximo é de 50 MB (codificado). O tamanho do arquivo original é menor. Por exemplo, um arquivo de 37,5 MB se torna ~50 MB quando codificado. - URI: Envie um Uniform Resource Identifier (URI) para acessar o vídeo sem fazer upload. O tamanho máximo do payload é 100 MB.
- Upload (URL) codificado em Base64: Converta um formato de vídeo suportado em
- Detalhes Técnicos
-
Consulte Video Understanding na documentação da API Gemini.
Limites
- Tokens por minuto (TPM)
- Para o aumento do limite de TPM, use o seguinte nome de limite,
gemini-2-5-flash-chat-tokens-per-minute-count(para 100.000 tokens). Consulte Solicitando um Aumento do Limite de Serviço.
Limitações
- Prompts complexos
- O modelo Gemini 2.5 Flash pode mostrar limitações em torno do entendimento causal, da educação lógica complexa e do raciocínio contrafactual. Para tarefas complexas, recomendamos o uso do modelo Google Gemini 2.5 Pro.
Modo sob Demanda
Os modelos do Gemini só estão disponíveis no modo sob demanda.
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| Gemini 2.5 Flash | google.gemini-2.5-flash |
Gemini 2.5 Flash |
-
Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
- Baixa barreira para começar a usar IA generativa.
- Ótimo para experimentação, prova de conceito e avaliação de modelo.
- Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte Datas de Baixa do Modelo (Modo Sob Demanda).
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 128.000 tokens para cada execução.
Dica
Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima. - Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2, Padrão: 1
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
pum número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definapcomo 1 para considerar todos os tokens. - Top k
-
Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do
top k. Nos modelos Gemini 2.5, o top k tem um valor fixo de 64, o que significa que o modelo considera apenas os 64 tokens mais prováveis (palavras ou partes de palavras) para cada etapa da geração. O token final é então escolhido nesta lista. - Número de Gerações (apenas API)
-
O parâmetro
numGenerationsna API controla quantas opções de resposta diferentes o modelo gera para cada prompt.- Quando você envia um prompt, o modelo Gemini gera um conjunto de respostas possíveis. Por padrão, ele retorna apenas a resposta com a maior probabilidade (
numGenerations = 1). - Se você aumentar o parâmetro
numGenerationspara um número entre 2 e 8, poderá fazer com que o modelo gere de 2 a 8 respostas distintas.
- Quando você envia um prompt, o modelo Gemini gera um conjunto de respostas possíveis. Por padrão, ele retorna apenas a resposta com a maior probabilidade (