Google Gemini 2.5 Flash

Das Gemini 2.5 Flash-Modell (google.gemini-2.5-flash) ist ein multimodales schnelles Argumentationsmodell, das ein Gleichgewicht zwischen Preis, Leistung und einer breiten Palette von Funktionen bietet, einschließlich Denkfunktionen. Gemini 2.5 Flash und Gemini 2.5 Flash-Lite Modelle sind beide effiziente Modelle. Flash-Lite ist für niedrigere Kosten und eine schnellere Leistung bei hochvolumigen, weniger komplexen Aufgaben optimiert. Gemini 2.5 Flash bietet eine Balance von Geschwindigkeit und Intelligenz für komplexere Anwendungen.

In dieser Region verfügbar

US East (Ashburn) (nur Oracle Interconnect for Google Cloud) und (nur bei Bedarf)
Mittlerer Westen der USA (Chicago) (nur bei Bedarf)
US West (Phoenix) (nur bei Bedarf)

Wichtig

Externe Aufrufe

Die Google Gemini 2.5-Modelle, auf die über den OCI Generative AI-Service zugegriffen werden kann, werden extern von Google gehostet. Daher führt ein Aufruf an ein Google Gemini-Modell (über den OCI Generative AI-Service) zu einem Anruf an einen Google-Standort.

Wichtige Features

Modellname in OCI Generative AI: google.gemini-2.5-flash
On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
Multimodale Unterstützung: Geben Sie Text, Code und Bilder ein, und rufen Sie eine Textausgabe ab. Dokumenteingaben wie PDF- und Textdateien werden nicht unterstützt. Audio- und Videodateieingaben werden nur über die API unterstützt. Siehe Image Understanding, Audio Understanding und Video Understanding.
Wissen: Verfügt über umfassende Kenntnisse in Wissenschaft, Mathematik und Code.
Kontextlänge: Eine Million Token
Maximale Eingabetoken: 1.048.576 (Konsole und API)
Maximale Ausgabetoken: 65.536 (Standard) (Konsole und API)
Extras zu diesen Anwendungsfällen: Für allgemeine alltägliche Aufgaben, die ein schnelles, kosteneffektives Modell mit starken Argumentationsfähigkeiten erfordern. Zum Beispiel für die meisten benutzerorientierten Anwendungen, bei denen eine schnelle, aber intelligente Antwort erforderlich ist.
Hat Argumentation: Ja. Enthält Text und visuelle Argumentation und Bildverständnis. Aus Gründen von Problemen erhöhen Sie die maximalen Ausgabetoken. Siehe Modellparameter.
Wissens-Cutoff: Januar 2025

In der folgenden Tabelle sind die Features aufgeführt, die in der Google Vertex AI Platform for OCI Generative mit Links zu den einzelnen Features unterstützt werden.

Unterstützte Gemini 2.5 Pro Features
Feature	Unterstützt?
Codeausführung	Ja
Optimierung	Nein
Systemanweisungen	Ja
Strukturierte Ausgabe	Ja
Batchvorhersage	Nein
Funktionsaufrufe	Ja
Zählungstoken	Nein
Nachdenken	Ja, aber das Deaktivieren des Denkprozesses wird nicht unterstützt.
Kontext-Caching	Ja, das Modell kann die Eingabetoken im Cache speichern. Diese Funktion wird jedoch nicht über die API gesteuert.
Vertex AI RAG-Engine	Nein
Chatabschlüsse	Ja
Erdung	Nein

Wichtige Features finden Sie in der Google Gemini 2.5 Flash-Dokumentation und in der Gemini 2.5 Flash-Modellkarte.

Bildverständnis

Bildgröße

Konsole: Maximale Bildgröße: 5 MB
API: Maximale Bildgröße pro Prompt: 3.000 und maximale Bildgröße vor der Codierung: 7 MB

Unterstützte Bildeingaben

Konsolenformate: png und jpeg
API: Leiten Sie im Chat-Vorgang eine base64-codierte Version eines Images weiter. Beispiel: Ein 512 x 512-Bild konvertiert in der Regel in etwa 1.610 Token. Unterstützte MIME-Typen sind: image/png, image/jpeg, image/webp, image/heic und image/heif. Das Format finden Sie in der ImageContent-Referenz.

Technische Daten

Unterstützt die Objekterkennung und Segmentierung. Siehe Image Understanding in der API-Dokumentation Gemini.

Audio verstehen

Unterstützte Audioformate

Konsole: nicht verfügbar
API: Unterstützte Mediendateien sind audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg und audio/flac.

Unterstützte Audioeingänge für die API

URL: Konvertieren Sie ein unterstütztes Audioformat in eine base64-codierte Version der Audiodatei.
URI: Leiten Sie die Audiodatei im URI-Format (Uniform Resource Identifier) weiter, sodass das Modell auf die Audiodatei zugreifen kann, ohne die Datei hochzuladen.

Das Format finden Sie in der AudioContent-Referenz.

Technische Daten

Tokenkonvertierung Jede Sekunde des Audios repräsentiert 32 Token, sodass eine Minute Audio 1.920 Token entspricht.
Nicht-Spracherkennung: Das Modell kann Nicht-Sprachkomponenten wie Vogellieder und Sirenen erkennen.
Maximale Länge: Die maximal unterstützte Audiolänge in einem einzelnen Prompt beträgt 9,5 ⁇ hours. Sie können mehrere Dateien einreichen, solange ihre kombinierte Dauer unter 9,5 Stunden bleibt.
Downsampling: Das Modell lädt Audiodateien auf eine Auflösung von 16 Kbit/s herunter.
Kanalzusammenführung: Wenn eine Audioquelle mehrere Kanäle aufweist, führt das Modell sie in einem einzigen Kanal zusammen.

Siehe Audio Understanding in der API-Dokumentation Gemini.

Video verstehen

Unterstützte Audioformate

Konsole: nicht verfügbar
API: Unterstützte Mediendateien sind video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv und video/3gpp.

Unterstützte Videoeingänge für die API

URL: Konvertieren Sie ein unterstütztes Videoformat in eine base64-codierte Version der Videodatei.
URI: Leiten Sie das Video im URI-Format (Uniform Resource Identifier) weiter, sodass das Modell auf das Video zugreifen kann, ohne die Datei hochzuladen.

Das Format finden Sie in der VideoContent-Referenz.

Technische Daten

Siehe Video Understanding in der API-Dokumentation Gemini.

Einschränkungen

Komplexe Prompts: Das Gemini 2.5 Flash-Modell könnte Einschränkungen hinsichtlich kausaler Verständigung, komplexer logischer Eduktion und kontrafaktischer Argumentation aufweisen. Für komplexe Aufgaben wird empfohlen, das Google Gemini 2.5 Pro-Modell zu verwenden.

Bedarfsgesteuerter Modus

Hinweis

Die Zwillinge-Modelle sind nur im On-Demand-Modus verfügbar.


Modellname	OCI-Modellname	Preisfindungsseite - Produktname
Gemini 2.5 Flash	`google.gemini-2.5-flash`	Gemini 2.5 Flash

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:

Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
Geringe Barriere für den Einsatz generativer KI.
Ideal für Experimente, Proof of Concept und Modellauswertung.
Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.

Tipp

Wir empfehlen die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Freigabedatum


Modell	Freigabedatum	Abgangsdatum bei Bedarf	Abgangsdatum im dedizierten Modus
`google.gemini-2.5-flash`	2025-10-01	Vorbehalt	Dieses Modell ist für den dedizierten Modus nicht verfügbar.

Wichtig

Weitere Informationen zur Einstellung und Einstellung des OCI Generative AI-Modells finden Sie unter Modelle einstellen.

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung.

Tipp

Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest.

Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.

Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Bei den Gemini 2.5-Modellen hat der obere k einen festen Wert von 64, was bedeutet, dass das Modell nur die 64 wahrscheinlichsten Token (Wörter oder Wortteile) für jeden Schritt der Generierung berücksichtigt. Das letzte Token wird dann aus dieser Liste ausgewählt.

Anzahl Generationen (nur API)

Der Parameter numGenerations in der API steuert, wie viele verschiedene Antwortoptionen das Modell für jeden Prompt generiert.

Wenn Sie eine Eingabeaufforderung senden, generiert das Gemini-Modell eine Reihe möglicher Antworten. Standardmäßig wird nur die Antwort mit der höchsten Wahrscheinlichkeit zurückgegeben (numGenerations = 1).
Wenn Sie den Parameter numGenerations auf eine Zahl zwischen oder gleich 2 und 8 erhöhen, kann das Modell 2 bis 8 eindeutige Antworten generieren.

Oracle Cloud Infrastructure-Dokumentation

Google Gemini 2.5 Flash

In dieser Region verfügbar

Wichtige Features

Bildverständnis

Audio verstehen

Video verstehen

Einschränkungen

Bedarfsgesteuerter Modus

Freigabedatum

Modellparameter