Google Gemini 2.5 Flash (Beta)
Entwurf vor allgemeiner Verfügbarkeit: 2025-08-29
Diese Dokumentation ist als Entwurf (vor allgemeiner Verfügbarkeit des Produkts) zu betrachten. Sie dient ausschließlich zu Präsentationszwecken und zur vorläufigen Verwendung. Diese Dokumentation bezieht sich nicht notwendigerweise auf die Hardware, auf der Sie die Software einsetzen. Bitte beachten Sie, dass Oracle und seine verbundenen Unternehmen für diese Dokumentation keinerlei Gewährleistung übernehmen und keine Verantwortung für Verluste, Kosten oder Schäden übernehmen, die auf die Nutzung dieser Dokumentation zurückzuführen sind.
Diese Dokumentation stellt keine Verpflichtung seitens Oracle zur Bereitstellung von Materialien, Code, Funktionalität oder Services dar. Diese Dokumentation sowie die Oracle-Programme und -Services, die sich im Entwurfs- bzw. Entwicklungsstadium befinden, können jederzeit und ohne vorherige Ankündigung geändert werden und dürfen nicht als Grundlage einer Kaufentscheidung herangezogen werden. Entwicklung, Freigabe und der Zeitplan von Funktionen oder Funktionalität der Oracle-Programme und -Services, die sich noch in der Entwicklung befinden, liegen im alleinigen Ermessen von Oracle. Alle Releasedaten oder andere Vorhersagen zukünftiger Ereignisse können sich ändern. Die zukünftige Verfügbarkeit zukünftiger Oracle-Programme oder -Services darf nicht als Grundlage für den Abschluss eines Lizenz- oder Servicevertrags mit Oracle herangezogen werden.
Das Gemini 2.5 Flash-Modell (google.gemini-2.5-flash
) ist ein multimodales schnelles Argumentationsmodell, das ein Gleichgewicht zwischen Preis, Leistung und einer breiten Palette von Funktionen bietet, einschließlich Denkfunktionen. Gemini 2.5 Flash und Gemini 2.5 Flash-Lite Modelle sind beide effiziente Modelle. Flash-Lite ist für niedrigere Kosten und eine schnellere Leistung bei hochvolumigen, weniger komplexen Aufgaben optimiert. Gemini 2.5 Flash bietet eine Balance von Geschwindigkeit und Intelligenz für komplexere Anwendungen.
In dieser Region verfügbar
- US East (Ashburn) (nur bei Bedarf)
Externe Anrufe
Die Google Gemini 2.5-Modelle, auf die über den OCI Generative AI-Service zugegriffen werden kann, werden extern von Google gehostet. Daher führt ein Aufruf an ein Google Gemini-Modell (über den OCI Generative AI-Service) zu einem Anruf an einen Google-Standort.
Wichtige Features
- Modellname in OCI Generative AI:
google.gemini-2.5-flash
- On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
- Multimodale Unterstützung: Geben Sie Text, Code und Bilder ein, und rufen Sie eine Textausgabe ab. Dateieingaben wie Audio-, Video- und Dokumentdateien werden nicht unterstützt. Die Typen und Größen der Bildeingaben finden Sie unter Limits.
- Wissen: Verfügt über umfassende Kenntnisse in Wissenschaft, Mathematik und Code.
- Kontextlänge: Eine Million Token
- Maximale Eingabetoken: 1.048.576 (Konsole und API)
- Maximale Ausgabetoken: 65.536 (Standard) (Konsole und API)
- Extras zu diesen Anwendungsfällen: Für allgemeine alltägliche Aufgaben, die ein schnelles, kosteneffektives Modell mit starken Argumentationsfähigkeiten erfordern. Zum Beispiel für die meisten benutzerorientierten Anwendungen, bei denen eine schnelle, aber intelligente Antwort erforderlich ist.
- Hat Argumentation: Ja. Enthält Text und visuelle Argumentation und Bildverständnis. Aus Gründen von Problemen erhöhen Sie die maximalen Ausgabetoken. Siehe Modellparameter.
- Wissens-Cutoff: Januar 2025
In der folgenden Tabelle finden Sie die Features, die in der Google Vertex AI Platform (Beta) für OCI Generative unterstützt werden, mit Links zu den einzelnen Features.
Feature | Unterstützt? |
---|---|
Codeausführung | Ja |
Optimierung | Nein |
Systemanweisungen | Ja |
Strukturierte Ausgabe | Ja |
Batchvorhersage | Nein |
Funktionsaufrufe | Ja |
Zählungstoken | Nein |
Nachdenken | Ja, aber das Deaktivieren des Denkprozesses wird nicht unterstützt. |
Kontext-Caching | Ja, das Modell kann die Eingabetoken im Cache speichern. Diese Funktion wird jedoch nicht über die API gesteuert. |
Vertex AI RAG-Engine | Nein |
Chatabschlüsse | Ja |
Erdung | Nein |
Wichtige Features finden Sie in der Google Gemini 2.5 Flash-Dokumentation und in der Gemini 2.5 Flash-Modellkarte.
Limits
- Komplexe Prompts
- Das Gemini 2.5 Flash (Beta)-Modell könnte Einschränkungen hinsichtlich kausaler Verständigung, komplexer logischer Eduktion und kontrafaktischer Argumentation aufweisen. Für komplexe Aufgaben empfehlen wir die Verwendung des Google Gemini 2.5 Pro (Beta)-Modells.
- Bildeingaben
-
- Konsole: Laden Sie mindestens ein
.png
- oder.jpg
-Image mit jeweils 5 MB oder weniger hoch. - API: Leiten Sie eine
base64
-codierte Version eines Images weiter. Beispiel: Ein 512 x 512-Bild konvertiert in der Regel in etwa 1.610 Token. Unterstützte MIME-Typen sindimage/png
,image/jpeg
undimage/webp
.- Maximale Bilder pro Eingabeaufforderung: 3.000
- Maximale Bildgröße vor der Codierung: 7 MB
- Konsole: Laden Sie mindestens ein
Bedarfsgesteuerter Modus
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Um einen zuverlässigen Zugriff auf generative KI-Modelle im On-Demand-Modus sicherzustellen, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.
Die Zwillinge-Modelle sind nur im On-Demand-Modus verfügbar.
Modellname | OCI-Modellname | Zugriff abrufen |
---|---|---|
Gemini 2.5 Flash (Beta) | google.gemini-2.5-flash |
Contact Oracle Beta Programs |
Freigabedatum
Modell | Beta-Freigabedatum | Abgangsdatum bei Bedarf | Abgangsdatum im dedizierten Modus |
---|---|---|---|
google.gemini-2.5-flash |
2.025-8-29 | Vorbehalt | Dieses Modell ist für den dedizierten Modus nicht verfügbar. |
Weitere Informationen zur Einstellung und Einstellung des OCI Generative AI-Modells finden Sie unter Modelle einstellen.
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung.
Tipp
Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. - Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
p
eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siep
auf 1, um alle Token zu berücksichtigen. - Top k
-
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den
top k
-Token wählt. Bei den Gemini 2.5-Modellen hat der obere k einen festen Wert von 64, was bedeutet, dass das Modell nur die 64 wahrscheinlichsten Token (Wörter oder Wortteile) für jeden Schritt der Generierung berücksichtigt. Das letzte Token wird dann aus dieser Liste ausgewählt. - Anzahl Generationen (nur API)
-
Der Parameter
numGenerations
in der API steuert, wie viele verschiedene Antwortoptionen das Modell für jeden Prompt generiert.- Wenn Sie eine Eingabeaufforderung senden, generiert das Gemini-Modell eine Reihe möglicher Antworten. Standardmäßig wird nur die Antwort mit der höchsten Wahrscheinlichkeit zurückgegeben (
numGenerations = 1
). - Wenn Sie den Parameter
numGenerations
auf eine Zahl zwischen oder gleich 2 und 8 erhöhen, kann das Modell 2 bis 8 eindeutige Antworten generieren.
- Wenn Sie eine Eingabeaufforderung senden, generiert das Gemini-Modell eine Reihe möglicher Antworten. Standardmäßig wird nur die Antwort mit der höchsten Wahrscheinlichkeit zurückgegeben (