Google Gemini 2.5 Flash-Lite
Das Google Gemini 2.5 Flash Lite-Modell (google.gemini-2.5-flash-lite) ist das schnellste und budgetfreundlichste multimodale Argumentationsmodell in der 2.5-Familie, das für geringe Latenz optimiert ist. Die Modelle Gemini 2.5 Flash und Google Gemini 2.5 Flash Lite sind beide effiziente Modelle. Flash-Lite ist für niedrigere Kosten und eine schnellere Leistung bei hochvolumigen, weniger komplexen Aufgaben optimiert. Gemini 2.5 Flash bietet eine Balance von Geschwindigkeit und Intelligenz für komplexere Anwendungen.
Regionen für dieses Modell
Informationen zu unterstützten Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Wichtige Features
- Modellname in OCI Generative AI:
google.gemini-2.5-flash-lite - On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
- Multimodale Unterstützung: Geben Sie Text, Code und Bilder ein, und rufen Sie eine Textausgabe ab. Dokumente, Audio- und Videodateieingaben werden nur über die API unterstützt. Siehe Document Understanding, Image Understanding, Audio Understanding und Video Understanding.
- Wissen: Verfügt über umfassende Kenntnisse in Wissenschaft, Mathematik und Code.
- Kontextlänge: Eine Million Token
- Maximale Eingabetoken: 1.048.576 (Konsole und API)
- Maximale Ausgabetoken: 65.536 (Standard) (Konsole und API)
- Ausführliche Beispiele für diese Anwendungsfälle: Für allgemeine, kostensensensible Aufgaben mit hohem Durchsatz, die keine komplexe Argumentation erfordern, wie Klassifizierung, Übersetzung und intelligentes Routing. Beispiel: Kundensupportanfragen und Zusammenfassung umfangreicher Dokumente.
- Hat Argumentation: Ja. Enthält Text und visuelle Argumentation und Bildverständnis. Aus Gründen von Problemen erhöhen Sie die maximalen Ausgabetoken. Siehe Modellparameter.
- Wissens-Cutoff: Januar 2025
In der folgenden Tabelle sind die Features aufgeführt, die in der Google Vertex AI Platform for OCI Generative mit Links zu den einzelnen Features unterstützt werden.
| Feature | Unterstützt? |
|---|---|
| Codeausführung | Ja |
| Optimierung | Nein |
| Systemanweisungen | Ja |
| Strukturierte Ausgabe | Ja |
| Batchvorhersage | Nein |
| Funktionsaufrufe | Ja |
| Zählungstoken | Nein |
| Nachdenken | Nein |
| Kontext-Caching | Ja, das Modell kann die Eingabetoken im Cache speichern. Diese Funktion wird jedoch nicht über die API gesteuert. |
| Vertex AI RAG-Engine | Nein |
| Chatabschlüsse | Ja |
| Erdung | Nein |
Wichtige Features finden Sie in der Google Gemini 2.5 Flash-Lite-Dokumentation und in der https://modelcards.withgoogle.com/assets/documents/gemini-2-flash-lite.pdf.
Document Understanding
- Unterstützter Inhaltstyp
-
- Konsole: nicht verfügbar
- API: Unterstützte Dateien sind
text/plainfür Textdateien undapplication/pdffür PDF-Dateien, wenn Inline-Daten verwendet werden.
- Unterstützte Dokumenteingaben für die API
-
- URL: Konvertieren Sie ein unterstütztes Dokumentformat in eine
base64-codierte Version des Dokuments. - URI: Leiten Sie das Dokument im URI-Format (Uniform Resource Identifier) weiter, damit das Modell auf die Datei zugreifen kann, ohne die Datei hochzuladen.
- URL: Konvertieren Sie ein unterstütztes Dokumentformat in eine
- Technische Daten
-
Siehe Document Understanding in der API-Dokumentation Gemini.
Bildverständnis
- Bildgröße
-
- Konsole: Maximale Bildgröße: 5 MB
- API: Maximale Bildgröße pro Prompt: 3.000 und maximale Bildgröße vor der Codierung: 7 MB
- Unterstützte Bildeingaben
-
- Konsolenformate:
pngundjpeg - API: Leiten Sie im Chat-Vorgang eine
base64-codierte Version eines Images weiter. Beispiel: Ein 512 x 512-Bild konvertiert in der Regel in etwa 1.610 Token. Unterstützte MIME-Typen sind:image/png,image/jpeg,image/webp,image/heicundimage/heif. Das Format finden Sie in der ImageContent-Referenz.
- Konsolenformate:
- Technische Daten
- Unterstützt die Objekterkennung und Segmentierung. Siehe Image Understanding in der API-Dokumentation Gemini.
Audio verstehen
- Unterstützte Audioformate
-
- Konsole: nicht verfügbar
- API: Unterstützte Mediendateien sind
audio/wav,audio/mp3,audio/aiff,audio/aac,audio/oggundaudio/flac.
- Unterstützte Audioeingänge für die API
-
- URL: Konvertieren Sie ein unterstütztes Audioformat in eine
base64-codierte Version der Audiodatei. - URI: Leiten Sie die Audiodatei im URI-Format (Uniform Resource Identifier) weiter, sodass das Modell auf die Audiodatei zugreifen kann, ohne die Datei hochzuladen.
- URL: Konvertieren Sie ein unterstütztes Audioformat in eine
- Technische Daten
-
- Tokenkonvertierung Jede Sekunde des Audios repräsentiert 32 Token, sodass eine Minute Audio 1.920 Token entspricht.
- Nicht-Spracherkennung: Das Modell kann Nicht-Sprachkomponenten wie Vogellieder und Sirenen erkennen.
- Maximale Länge: Die maximal unterstützte Audiolänge in einem einzelnen Prompt beträgt 9,5 ⁇ hours. Sie können mehrere Dateien einreichen, solange ihre kombinierte Dauer unter 9,5 Stunden bleibt.
- Downsampling: Das Modell lädt Audiodateien auf eine Auflösung von 16 Kbit/s herunter.
- Kanalzusammenführung: Wenn eine Audioquelle mehrere Kanäle aufweist, führt das Modell sie in einem einzigen Kanal zusammen.
Siehe Audio Understanding in der API-Dokumentation Gemini.
Video verstehen
- Unterstützte Audioformate
-
- Konsole: nicht verfügbar
- API: Unterstützte Mediendateien sind
video/mp4,video/mpeg,video/mov,video/avi,video/x-flv,video/mpg,video/webm,video/wmvundvideo/3gpp.
- Unterstützte Videoeingänge für die API
-
- URL (Base64-encoded upload): Konvertieren Sie ein unterstütztes Videoformat in ein
base64. Die maximale Nutzlast beträgt 50 MB (kodiert). Die ursprüngliche Dateigröße ist kleiner. Beispiel: Eine 37,5-MB-Datei wird bei der Codierung zu ~50 MB. - URI: Leiten Sie eine URI (Uniform Resource Identifier) weiter, um auf das Video zuzugreifen, ohne es hochzuladen. Die maximale Payload-Größe beträgt 100 MB.
- URL (Base64-encoded upload): Konvertieren Sie ein unterstütztes Videoformat in ein
- Technische Daten
-
Siehe Video Understanding in der API-Dokumentation Gemini.
Limits
- Token pro Minute (TPM)
- Für die Erhöhung des TPM-Limits verwenden Sie den folgenden Limitnamen:
gemini-2-5-flash-lite-chat-tokens-per-minute-count(für 100.000 Token). Siehe Limiterhöhungsanforderungen erstellen.
Einschränkungen
- Komplexe Prompts
- Das Gemini 2.5 Flash-Lite-Modell hat seinen Denkprozess deaktiviert, um Geschwindigkeit und Kosten zu priorisieren, sodass es nicht für komplexe Aufgaben geeignet ist. Für komplexe Aufgaben wird empfohlen, das Modell Gemini 2.5 Flash-Lite zu verwenden.
Bedarfsgesteuerter Modus
Die Zwillinge-Modelle sind nur im On-Demand-Modus verfügbar.
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Gemini 2.5 Flash-Lite | google.gemini-2.5-flash-lite |
Gemini 2.5 Flash Lite |
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal für Experimente, Proof of Concept und Modellauswertung.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Wir empfehlen die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten und Ersatzmodelloptionen finden Sie unter Abgangsdatumsangaben für Modelle (On-Demand-Modus).
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte einiger Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Das maximale Ausgabe-Token für die Gemini 2.5-Modellreihe beträgt 65.536 (Standard-)Token für jede Ausführung.
Tipp
Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. - Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
peine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siepauf 1, um alle Token zu berücksichtigen. - Top k
-
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den
top k-Token wählt. Bei den Gemini 2.5-Modellen hat der obere k einen festen Wert von 64, was bedeutet, dass das Modell nur die 64 wahrscheinlichsten Token (Wörter oder Wortteile) für jeden Schritt der Generierung berücksichtigt. Das letzte Token wird dann aus dieser Liste ausgewählt. - Anzahl Generationen (nur API)
-
Der Parameter
numGenerationsin der API steuert, wie viele verschiedene Antwortoptionen das Modell für jeden Prompt generiert.- Wenn Sie eine Eingabeaufforderung senden, generiert das Gemini-Modell eine Reihe möglicher Antworten. Standardmäßig wird nur die Antwort mit der höchsten Wahrscheinlichkeit zurückgegeben (
numGenerations = 1). - Wenn Sie den Parameter
numGenerationsauf eine Zahl zwischen oder gleich 2 und 8 erhöhen, kann das Modell 2 bis 8 eindeutige Antworten generieren.
- Wenn Sie eine Eingabeaufforderung senden, generiert das Gemini-Modell eine Reihe möglicher Antworten. Standardmäßig wird nur die Antwort mit der höchsten Wahrscheinlichkeit zurückgegeben (