Google Gemini 2.5 Flash

Il modello Flash Gemini 2.5 (google.gemini-2.5-flash) è un modello di ragionamento rapido multimodale che offre un equilibrio tra prezzo, prestazioni e una vasta gamma di funzionalità, incluse le funzionalità di pensiero. I modelli Gemini 2.5 Flash e Gemini 2.5 Flash-Lite sono entrambi modelli efficienti. Flash-Lite è ottimizzato per ridurre i costi e ottenere prestazioni più rapide in attività meno complesse e con volumi elevati. Gemini 2.5 Flash offre un equilibrio di velocità e intelligenza per applicazioni più complesse.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Caratteristiche principali

Nome del modello nell'AI generativa OCI: google.gemini-2.5-flash
Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
Supporto multimodale: inserire testo, codice e immagini e ottenere un output di testo. Gli input di documenti, audio e file video sono supportati solo tramite API. Vedere Comprensione dei documenti, Comprensione delle immagini, Comprensione dell'audio e Comprensione dei video.
Knowledge: dispone di una conoscenza approfondita del dominio in scienza, matematica e codice.
Lunghezza contesto: un milione di token
Numero massimo di token di input: 1.048.576 (console e API)
Nota

Gemini 2.5 Flash solo nell'area OCI di Osaka: il limite del token di input è di 128.000 token
Numero massimo di token di output: 65.536 (impostazione predefinita) (console e API)
Escelte in questi casi d'uso: per attività quotidiane generiche che richiedono un modello veloce e conveniente con forti capacità di ragionamento. Ad esempio, per la maggior parte delle applicazioni rivolte agli utenti in cui è necessaria una risposta rapida, ma intelligente.
Motivo: Sì. Include il ragionamento testuale e visivo e la comprensione delle immagini. Per i problemi di ragionamento aumentare il numero massimo di token di output. Vedere Parametri del modello.
Knowledge Cutoff: gennaio 2025

Vedere la tabella riportata di seguito per le funzioni supportate nella piattaforma AI di Google Vertex per OCI Generative, con collegamenti a ciascuna funzione.

Funzioni Flash Gemini 2.5 supportate
Funzione	Supportato?
Esecuzione codice	Sì
Tuning	N
Istruzioni di sistema	Sì
Output strutturato	Sì
Previsione batch	N
Chiamata alla funzione	Sì
Token inventario	N
Pensieroso	Sì, ma disattivare il processo di pensiero non è supportato.
Inserimento nella cache del contesto	Sì, il modello può inserire nella cache i token di input, ma questa funzione non è controllata tramite l'API.
Motore RAG AI Vertex	N
Completamenti chat	Sì
Messa a terra	N

Per informazioni dettagliate sulle funzionalità principali, consultare la documentazione di Google Gemini 2.5 Flash e la scheda del modello Flash Gemini 2.5.

Document Understanding

Tipo di contenuto supportato

Console: non disponibile
API: i file supportati sono text/plain per i file di testo e application/pdf per i file PDF quando si utilizzano i dati in linea.

Input documento supportati per l'API

URL: convertire un formato di documento supportato in una versione codificata base64 del documento.
URI: sottomettere il documento in formato URI (Uniform Resource Identifier) in modo che, senza caricare il file, il modello possa accedere al file.

Per il formato, vedere DocumentContent Riferimento.

Dettagli tecnici

Vedere Document Understanding nella documentazione API Gemini.

Informazioni sull'immagine

Dimensione immagine

Console: dimensione massima dell'immagine: 5 MB
API: numero massimo di immagini per prompt: 3.000 e dimensione massima dell'immagine prima della codifica: 7 MB

Input immagine supportati

Console: formati png e jpeg
API: nell'operazione Chat sottomettere una versione codificata base64 di un'immagine. Ad esempio, un'immagine 512 x 512 in genere converte in circa 1.610 token. I tipi MIME supportati sono: image/png, image/jpeg, image/webp, image/heic e image/heif. Per il formato, vedere ImageContent Riferimento.

Dettagli tecnici

Supporta il rilevamento degli oggetti e la segmentazione. Vedere Image Understanding nella documentazione sull'API Gemini.

Comprensione audio

Formati audio supportati

Console: non disponibile
API: i file di supporto supportati sono audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg e audio/flac.

Input audio supportati per l'API

URL: convertire un formato audio supportato in una versione codificata base64 del file audio.
URI: sottomettere l'audio in formato URI (Uniform Resource Identifier) in modo che, senza caricare il file, il modello possa accedere all'audio.

Per il formato, vedere AudioContent Riferimento.

Dettagli tecnici

Conversione in token Ogni secondo di audio rappresenta 32 token, quindi un minuto di audio corrisponde a 1.920 token.
Rilevamento non di sintesi vocale: il modello è in grado di riconoscere componenti non di sintesi vocale quali canzoni di uccelli e sirene.
Lunghezza massima: la lunghezza audio massima supportata in un singolo prompt è di 9,5 ⁇ ore. È possibile inviare diversi file fino a quando la loro durata combinata rimane sotto 9.5 ⁇ hours.
Downsampling: il modello sottopone i file audio a una risoluzione di 16 ⁇ kbps.
Unione canali: se un'origine audio ha più canali, il modello li unisce in un unico canale.

Vedere Audio Understanding nella documentazione sull'API Gemini.

Comprensione video

Formati audio supportati

Console: non disponibile
API: i file di supporto supportati sono video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv e video/3gpp.

Input video supportati per l'API

Base64-encoded upload (URL): Converte un formato video supportato in un base64. Il payload massimo è di 50 MB (codificato). Le dimensioni del file originale sono inferiori. Ad esempio, un file da 37,5 MB diventa ~50 MB quando viene codificato.
URI: sottomettere un URI (Uniform Resource Identifier) per accedere al video senza caricarlo. La dimensione massima del payload è di 100 MB.

Per il formato, vedere VideoContent Riferimento.

Dettagli tecnici

Vedere Video Understanding nella documentazione API Gemini.

Limiti

Token al minuto (TPM): Per l'aumento del limite TPM, utilizzare il seguente nome limite, gemini-2-5-flash-chat-tokens-per-minute-count (per 100.000 token). Vedere Creazione di una richiesta di aumento del limite.

Limiti

Prompt complessi: Il modello Gemini 2.5 Flash potrebbe mostrare limitazioni relative alla comprensione causale, alla formazione logica complessa e al ragionamento controfattuale. Per attività complesse, si consiglia di utilizzare il modello Google Gemini 2.5 Pro.

Modalità su richiesta

Nota

I modelli Gemelli sono disponibili solo in modalità su richiesta.


Nome modello	Nome modello OCI	Nome prodotto pagina determinazione prezzi
Gemini 2.5 Flash	`google.gemini-2.5-flash`	Gemini 2.5 Flash

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.

È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).

Suggerimento

Si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, come una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive dell'integrazione nel servizio.

Date di rilascio e ritiro OCI

Per le date di rilascio e smobilizzo e le opzioni del modello di sostituzione, vedere Date di smobilizzo del modello (modalità su richiesta).

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 128.000 token per ogni esecuzione.

Suggerimento

Per input di grandi dimensioni con problemi difficili, impostare un valore elevato per il parametro del numero massimo di token di output.

Temperatura

Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2, Predefinito: 1

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Nei modelli Gemini 2.5, la top k ha un valore fisso di 64, il che significa che il modello considera solo i 64 token più probabili (parole o parti di parole) per ogni fase della generazione. Il token finale viene quindi scelto da questa lista.

Numero di generazioni (solo API)

Il parametro numGenerations nell'API controlla il numero di opzioni di risposta diverse generate dal modello per ogni prompt.

Quando si invia un prompt, il modello Gemelli genera una serie di possibili risposte. Per impostazione predefinita, restituisce solo la risposta con la probabilità più alta (numGenerations = 1).
Se si aumenta il parametro numGenerations a un numero compreso tra 2 e 8, è possibile fare in modo che il modello generi da 2 a 8 risposte distinte.

Documentazione dell'infrastruttura Oracle Cloud

Google Gemini 2.5 Flash

Aree per questo modello

Caratteristiche principali

Document Understanding

Informazioni sull'immagine

Comprensione audio

Comprensione video

Limiti

Limiti

Modalità su richiesta

Date di rilascio e ritiro OCI

Parametri modello