Google Gemini 2.5 Flash

O modelo Gemini 2.5 Flash (google.gemini-2.5-flash) é um modelo de raciocínio rápido multimodal que oferece um equilíbrio de preço, desempenho e uma ampla gama de recursos, incluindo recursos de pensamento. Os modelos Gemini 2.5 Flash e Gemini 2.5 Flash-Lite são ambos modelos eficientes. O Flash-Lite é otimizado para baixo custo e desempenho mais rápido em tarefas de alto volume e menos complexas. O Gemini 2.5 Flash oferece um equilíbrio de velocidade e inteligência para aplicações mais complexas.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Principais Recursos

Nome do modelo na OCI Generative AI: google.gemini-2.5-flash
Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
Suporte a Multimodais: insira texto, código e imagens e obtenha uma saída de texto. Documentos, entradas de arquivos de áudio e vídeo são suportados apenas por meio da API. Consulte Document Understanding, Image Understanding, Audio Understanding e Video Understanding.
Conhecimento: Tem um profundo conhecimento de domínio em ciência, matemática e código.
Tamanho do Contexto: Um milhão de tokens
Máximo de Tokens de Entrada: 1.048.576 (Console e API)
Observação

Gemini 2.5 Flash apenas na região do OCI Osaka: O limite de token de entrada é de 128.000 tokens
Máximo de Tokens de Saída: 65.536 (padrão) (Console e API)
Excels em Estes Casos de Uso: Para tarefas diárias de uso geral que exigem um modelo rápido e econômico com fortes habilidades de raciocínio. Por exemplo, para a maioria dos aplicativos voltados para o usuário, em que é necessária uma resposta rápida, mas inteligente.
Tem Argumento: Sim. Inclui raciocínio visual e de texto e compreensão de imagens. Para problemas de raciocínio, aumente o máximo de tokens de saída. Consulte Parâmetros de Modelo.
Knowledge Cutoff: janeiro de 2025

Consulte a tabela a seguir para ver os recursos suportados na Plataforma Google Vertex AI para OCI Generative, com links para cada recurso.

Recursos Flash do Gemini 2.5 suportados
Recurso	Suportado?
Execução do código	Sim
Ajuste	Não
Instruções do sistema	Sim
Saída estruturada	Sim
Previsão do lote	Não
Chamada de função	Sim
Tokens de Contagem	Não
Pensando	Sim, mas desativar o processo de pensamento não é suportado.
Cache de contexto	Sim, o modelo pode armazenar em cache os tokens de entrada, mas esse recurso não é controlado por meio da API.
Mecanismo RAG da Vertex AI	Não
Conclusões de chat	Sim
Aterramento	Não

Para obter detalhes sobre os principais recursos, consulte a documentação do Google Gemini 2.5 Flash e a placa de modelo do Gemini 2.5 Flash.

Compreensão de Documentos

Tipo de Conteúdo Suportado

Console: não disponível
API: Os arquivos suportados são text/plain para arquivos de texto e application/pdf para arquivos PDF ao usar dados em linha.

Entradas de Documento Suportadas para a API

URL: Converta um formato de documento suportado em uma versão codificada em base64 do documento.
URI: Submeta o documento em um formato Uniform Resource Identifier (URI) para que, sem fazer upload do arquivo, o modelo possa acessar o arquivo.

Para o formato, consulte Referência DocumentContent.

Detalhes Técnicos

Consulte Document Understanding na documentação da API Gemini.

Compreensão da Imagem

Tamanho da Imagem

Console: Tamanho máximo da imagem: 5 MB
API: Máximo de imagens por prompt: 3.000 e tamanho máximo da imagem antes da codificação: 7 MB

Entradas de Imagem Suportadas

Formatos da console: png e jpeg
API: Na operação Chat, submeta uma versão codificada base64 de uma imagem. Por exemplo, uma imagem 512 x 512 normalmente é convertida em cerca de 1.610 tokens. Os tipos de MIME suportados são: image/png, image/jpeg, image/webp, image/heic e image/heif. Para o formato, consulte Referência ImageContent.

Detalhes Técnicos

Suporta detecção de objeto e segmentação. Consulte Image Understanding na documentação da API Gemini.

Compreensão de Áudio

Formatos de Áudio Suportados

Console: não disponível
API: Os arquivos de mídia suportados são audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg e audio/flac.

Entradas de Áudio Suportadas para a API

URL: Converta um formato de áudio suportado em uma versão codificada em base64 do arquivo de áudio.
URI: Envie o áudio em um formato Uniform Resource Identifier (URI) para que, sem fazer upload do arquivo, o modelo possa acessar o áudio.

Para o formato, consulte Referência AudioContent.

Detalhes Técnicos

Conversão de Token Cada segundo de áudio representa 32 tokens, portanto, um minuto de áudio corresponde a 1.920 tokens.
Detecção de Não-Fala: O modelo pode reconhecer componentes que não são de fala, como canções de pássaros e sirenes.
Comprimento Máximo: O comprimento máximo de áudio suportado em um único prompt é 9.5 ⁇ hours. Você pode enviar vários arquivos, desde que sua duração combinada permaneça abaixo de 9,5 horas.
Redução da amostra: O modelo reduz os arquivos de áudio para uma resolução de 16 ⁇ kbps.
Mesclagem de Canais: Se uma origem de áudio tiver vários canais, o modelo os mesclará em um único canal.

Consulte Audio Understanding na documentação da API Gemini.

Compreensão de vídeo

Formatos de Áudio Suportados

Console: não disponível
API: Os arquivos de mídia suportados são video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv e video/3gpp.

Entradas de Vídeo Suportadas para a API

Upload (URL) codificado em Base64: Converta um formato de vídeo suportado em base64. O payload máximo é de 50 MB (codificado). O tamanho do arquivo original é menor. Por exemplo, um arquivo de 37,5 MB se torna ~50 MB quando codificado.
URI: Envie um Uniform Resource Identifier (URI) para acessar o vídeo sem fazer upload. O tamanho máximo do payload é 100 MB.

Para o formato, consulte Referência VideoContent.

Detalhes Técnicos

Consulte Video Understanding na documentação da API Gemini.

Limites

Tokens por minuto (TPM): Para o aumento do limite de TPM, use o seguinte nome de limite, gemini-2-5-flash-chat-tokens-per-minute-count (para 100.000 tokens). Consulte Criando uma Solicitação de Aumento de Limite.

Limitações

Prompts complexos: O modelo Gemini 2.5 Flash pode mostrar limitações em torno do entendimento causal, da educação lógica complexa e do raciocínio contrafactual. Para tarefas complexas, recomendamos o uso do modelo Google Gemini 2.5 Pro.

Modo sob Demanda

Observação

Os modelos do Gemini só estão disponíveis no modo sob demanda.


Nome do Modelo	Nome do Modelo do OCI	Nome do Produto da Página de Precificação
Gemini 2.5 Flash	`google.gemini-2.5-flash`	Gemini 2.5 Flash

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:

Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
Baixa barreira para começar a usar IA generativa.
Ótimo para experimentação, prova de conceito e avaliação de modelo.
Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Dica

Recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Datas de Lançamento e Baixa do OCI

Para datas de liberação e baixa e opções de modelo de substituição, consulte Datas de Baixa do Modelo (Modo Sob Demanda).

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 128.000 tokens para cada execução.

Dica

Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2, Padrão: 1

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.

Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Nos modelos Gemini 2.5, o top k tem um valor fixo de 64, o que significa que o modelo considera apenas os 64 tokens mais prováveis (palavras ou partes de palavras) para cada etapa da geração. O token final é então escolhido nesta lista.

Número de Gerações (apenas API)

O parâmetro numGenerations na API controla quantas opções de resposta diferentes o modelo gera para cada prompt.

Quando você envia um prompt, o modelo Gemini gera um conjunto de respostas possíveis. Por padrão, ele retorna apenas a resposta com a maior probabilidade (numGenerations = 1).
Se você aumentar o parâmetro numGenerations para um número entre 2 e 8, poderá fazer com que o modelo gere de 2 a 8 respostas distintas.

Documentação do Oracle Cloud Infrastructure

Google Gemini 2.5 Flash

Regiões para este Modelo

Principais Recursos

Compreensão de Documentos

Compreensão da Imagem

Compreensão de Áudio

Compreensão de vídeo

Limites

Limitações

Modo sob Demanda

Datas de Lançamento e Baixa do OCI

Parâmetros de Modelo