Google Gemini 2.5 Flash
Le modèle Gemini 2.5 Flash (google.gemini-2.5-flash
) est un modèle de raisonnement rapide multimodal qui offre un équilibre entre le prix, les performances et un large éventail de capacités, y compris des fonctionnalités de réflexion. Les modèles Gemini 2.5 Flash et Gemini 2.5 Flash-Lite sont tous deux des modèles efficaces. Flash-Lite est optimisé pour des coûts réduits et des performances plus rapides sur des tâches volumineuses et moins complexes. Gemini 2.5 Flash offre un équilibre entre rapidité et intelligence pour des applications plus complexes.
Disponible dans cette région
- Est des Etats-Unis (Ashburn) (Oracle Interconnect for Google Cloud uniquement) et (à la demande uniquement)
- Midwest des Etats-Unis (Chicago) (à la demande uniquement)
- Ouest des Etats-Unis (Phoenix) (à la demande uniquement)
Appels externes
Les modèles Google Gemini 2.5 accessibles via le service OCI Generative AI sont hébergés en externe par Google. Par conséquent, un appel à un modèle Google Gemini (via le service OCI Generative AI) entraîne un appel vers un emplacement Google.
Principales fonctionnalités
- Nom du modèle dans OCI Generative AI :
google.gemini-2.5-flash
- Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
- Prise en charge multimodale : saisissez du texte, du code et des images et obtenez une sortie texte. Les entrées de fichier audio et vidéo sont prises en charge par l'API uniquement. Reportez-vous aux sections Compréhension de l'image, Compréhension audio et Compréhension vidéo.
- Connaissances : possède une connaissance approfondie du domaine en sciences, en mathématiques et en code.
- Longueur de contexte : un million de jetons
- Nombre maximal de jetons d'entrée : 1 048 576 (console et API)
- Nombre maximal de jetons de sortie : 65 536 (valeur par défaut) (console et API)
- Excelle dans ces cas d'utilisation : pour les tâches quotidiennes à usage général qui nécessitent un modèle rapide et rentable avec de fortes capacités de raisonnement. Par exemple, pour la plupart des applications destinées aux utilisateurs, où une réponse rapide mais intelligente est nécessaire.
- A un raisonnement : Oui. Inclut le raisonnement textuel et visuel et la compréhension de l'image. Les problèmes de raisonnement augmentent le nombre maximal de jetons de sortie. Reportez-vous à Paramètres de modèle.
- Limite de connaissances : janvier 2025
Reportez-vous au tableau suivant pour connaître les fonctionnalités prises en charge dans Google Vertex AI Platform for OCI Generative, avec des liens vers chaque fonctionnalité.
Fonction | Pris en charge ? |
---|---|
Exécution de code | Oui |
Réglage | Non |
Instructions système | Oui |
Sortie structurée | Oui |
Prédiction par lots | Non |
Appel de fonction | Oui |
Compter les jetons | Non |
Réflexion | Oui, mais la désactivation du processus de réflexion n'est pas prise en charge. |
Mise en cache du contexte | Oui, le modèle peut mettre en cache les jetons d'entrée, mais cette fonctionnalité n'est pas contrôlée via l'API. |
Moteur Vertex AI RAG | Non |
Achèvements de discussion | Oui |
Mise à la terre | Non |
Pour plus d'informations sur les principales fonctionnalités, reportez-vous à la documentation Google Gemini 2.5 Flash et à la carte modèle Gemini 2.5 Flash.
Présentation de l'image
- Taille de l'image
-
- Console : taille maximale de l'image : 5 Mo
- API : images maximum par invite : 3 000 et taille d'image maximum avant encodage : 7 Mo
- Entrées d'image prises en charge
-
- Console : formats
png
etjpeg
- API : dans l'opération Chat, soumettez une version d'image encodée en
base64
. Par exemple, une image 512 x 512 convertit généralement en environ 1 610 jetons. Les types MIME pris en charge sont :image/png
,image/jpeg
,image/webp
,image/heic
etimage/heif
. Pour connaître le format, reportez-vous à ImageContent Reference.
- Console : formats
- Détails techniques
- Prend en charge la détection d'objets et la segmentation. Reportez-vous à Image Understanding dans la documentation de l'API Gemini.
Présentation audio
- Formats audio pris en charge
-
- Console : non disponible
- API : les fichiers de média pris en charge sont
audio/wav
,audio/mp3
,audio/aiff
,audio/aac
,audio/ogg
etaudio/flac
.
- Entrées audio prises en charge pour l'API
-
- URL : convertissez un format audio pris en charge en une version codée
base64
du fichier audio. - URI : soumettez l'audio au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder à l'audio sans télécharger le fichier.
- URL : convertissez un format audio pris en charge en une version codée
- Détails techniques
-
- Conversion de jeton Chaque seconde d'audio représente 32 jetons, donc une minute d'audio correspond à 1 920 jetons.
- Détection non vocale : le modèle peut reconnaître des composants non vocaux tels que des chants d'oiseau et des sirènes.
- Longueur maximale : la longueur audio maximale prise en charge dans une invite unique est de 9,5 ⁇ heures. Vous pouvez soumettre plusieurs fichiers tant que leur durée combinée reste inférieure à 9,5 heures.
- Rééchantillonnage : le modèle réduit les échantillons de fichiers audio à une résolution de 16 ⁇ kbps.
- Fusion de canaux : si une source audio comporte plusieurs canaux, le modèle les fusionne en un seul canal.
Reportez-vous à Présentation audio dans la documentation de l'API Gemini.
Compréhension vidéo
- Formats audio pris en charge
-
- Console : non disponible
- API : les fichiers de média pris en charge sont
video/mp4
,video/mpeg
,video/mov
,video/avi
,video/x-flv
,video/mpg
,video/webm
,video/wmv
etvideo/3gpp
.
- Entrées vidéo prises en charge pour l'API
-
- URL : convertissez un format vidéo pris en charge en une version codée en
base64
du fichier vidéo. - URI : soumettez la vidéo au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder à la vidéo sans télécharger le fichier.
- URL : convertissez un format vidéo pris en charge en une version codée en
- Détails techniques
-
Reportez-vous à Présentation vidéo dans la documentation de l'API Gemini.
Limites
- Invites complexes
- Le modèle Gemini 2.5 Flash peut présenter des limites en matière de compréhension causale, d'éduction logique complexe et de raisonnement contrefactuel. Pour les tâches complexes, nous vous recommandons d'utiliser le modèle Google Gemini 2.5 Pro.
Mode à la demande
Les modèles Gemini sont disponibles uniquement en mode à la demande.
Nom du modèle | Nom du modèle OCI | Nom du produit de la page de tarification |
---|---|---|
Gemini 2.5 Flash | google.gemini-2.5-flash |
Gemini 2.5 Flash |
-
Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.
- Faible barrière pour commencer à utiliser l'IA générative.
- Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
- Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).
Nous recommandons de mettre en œuvre une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de votre intégration au service.
Date de lancement
Modèle | Date de lancement | Date de sortie à la demande | Date de retrait du mode dédié |
---|---|---|---|
google.gemini-2.5-flash |
2025-10-01 | Provisoire | Ce modèle n'est pas disponible pour le mode dédié. |
Pour en savoir plus sur l'abandon et la mise hors service du modèle OCI Generative AI, reportez-vous à Mise hors service des modèles.
Paramètres de modèle
Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.
- Nombre maximal de sèmes de sortie
-
Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 128 000 jetons pour chaque exécution.
Conseil
Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum. - Température
-
Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2, Valeur par défaut : 1
Conseil
Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes. - Valeur Top p
-
Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à
p
un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissezp
sur 1 pour prendre en compte tous les jetons. - Valeur Top k
-
Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons
top k
les plus probables. Dans les modèles Gemini 2.5, le k supérieur a une valeur fixe de 64, ce qui signifie que le modèle ne prend en compte que les 64 jetons (mots ou parties de mots) les plus probables pour chaque étape de génération. Le jeton final est ensuite choisi dans cette liste. - Nombre de générations (API uniquement)
-
Le paramètre
numGenerations
de l'API contrôle le nombre d'options de réponse différentes générées par le modèle pour chaque invite.- Lorsque vous envoyez une invite, le modèle Gemini génère un ensemble de réponses possibles. Par défaut, elle renvoie uniquement la réponse avec la probabilité la plus élevée (
numGenerations = 1
). - Si vous augmentez le paramètre
numGenerations
à un nombre compris entre 2 et 8, vous pouvez demander au modèle de générer 2 à 8 réponses distinctes.
- Lorsque vous envoyez une invite, le modèle Gemini génère un ensemble de réponses possibles. Par défaut, elle renvoie uniquement la réponse avec la probabilité la plus élevée (