Google Gemini 2.5 Flash

Le modèle Gemini 2.5 Flash (google.gemini-2.5-flash) est un modèle de raisonnement rapide multimodal qui offre un équilibre entre le prix, les performances et un large éventail de capacités, y compris des fonctionnalités de réflexion. Les modèles Gemini 2.5 Flash et Gemini 2.5 Flash-Lite sont tous deux des modèles efficaces. Flash-Lite est optimisé pour des coûts réduits et des performances plus rapides sur des tâches volumineuses et moins complexes. Gemini 2.5 Flash offre un équilibre entre rapidité et intelligence pour des applications plus complexes.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Principales fonctionnalités

  • Nom du modèle dans OCI Generative AI : google.gemini-2.5-flash
  • Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
  • Prise en charge multimodale : saisissez du texte, du code et des images et obtenez une sortie texte. Les entrées de documents, audio et vidéo sont prises en charge par l'API uniquement. Reportez-vous aux sections Compréhension des documents, Compréhension des images, Compréhension audio et Compréhension vidéo.
  • Connaissances : possède une connaissance approfondie du domaine en sciences, en mathématiques et en code.
  • Longueur de contexte : un million de jetons
  • Nombre maximal de jetons d'entrée : 1 048 576 (console et API)
  • Nombre maximal de jetons de sortie : 65 536 (valeur par défaut) (console et API)
  • Excelle dans ces cas d'utilisation : pour les tâches quotidiennes à usage général qui nécessitent un modèle rapide et rentable avec de fortes capacités de raisonnement. Par exemple, pour la plupart des applications destinées aux utilisateurs, où une réponse rapide mais intelligente est nécessaire.
  • A un raisonnement : Oui. Inclut le raisonnement textuel et visuel et la compréhension de l'image. Les problèmes de raisonnement augmentent le nombre maximal de jetons de sortie. Reportez-vous à Paramètres de modèle.
  • Limite de connaissances : janvier 2025

Reportez-vous au tableau suivant pour connaître les fonctionnalités prises en charge dans Google Vertex AI Platform for OCI Generative, avec des liens vers chaque fonctionnalité.

Fonctionnalités prises en charge de Gemini 2.5 Flash
Fonction Pris en charge ?
Exécution de code Oui
Réglage Non
Instructions système Oui
Sortie structurée Oui
Prédiction par lots Non
Appel de fonction Oui
Compter les jetons Non
Réflexion Oui, mais la désactivation du processus de réflexion n'est pas prise en charge.
Mise en cache du contexte Oui, le modèle peut mettre en cache les jetons d'entrée, mais cette fonctionnalité n'est pas contrôlée via l'API.
Moteur Vertex AI RAG Non
Achèvements de discussion Oui
Mise à la terre Non

Pour plus d'informations sur les principales fonctionnalités, reportez-vous à la documentation Google Gemini 2.5 Flash et à la carte modèle Gemini 2.5 Flash.

Comprendre les documents

Type de contenu pris en charge
  • Console : non disponible
  • API : les fichiers pris en charge sont text/plain pour les fichiers texte et application/pdf pour les fichiers PDF lors de l'utilisation de données en ligne.
Entrées de document prises en charge pour l'API
  • URL : convertissez un format de document pris en charge en une version codée base64 du document.
  • URI : soumettez le document au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder au fichier sans le télécharger.

Pour connaître le format, reportez-vous à DocumentContent Reference.

Détails techniques

Reportez-vous à Document Understanding dans la documentation de l'API Gemini.

Présentation de l'image

Taille de l'image
  • Console : taille maximale de l'image : 5 Mo
  • API : images maximum par invite : 3 000 et taille d'image maximum avant encodage : 7 Mo
Entrées d'image prises en charge
  • Console : formats png et jpeg
  • API : dans l'opération Chat, soumettez une version d'image encodée en base64. Par exemple, une image 512 x 512 convertit généralement en environ 1 610 jetons. Les types MIME pris en charge sont : image/png, image/jpeg, image/webp, image/heic et image/heif. Pour connaître le format, reportez-vous à ImageContent Reference.
Détails techniques
Prend en charge la détection d'objets et la segmentation. Reportez-vous à Image Understanding dans la documentation de l'API Gemini.

Présentation audio

Formats audio pris en charge
  • Console : non disponible
  • API : les fichiers de média pris en charge sont audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg et audio/flac.
Entrées audio prises en charge pour l'API
  • URL : convertissez un format audio pris en charge en une version codée base64 du fichier audio.
  • URI : soumettez l'audio au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder à l'audio sans télécharger le fichier.

Pour connaître le format, reportez-vous à AudioContent Reference.

Détails techniques
  • Conversion de jeton Chaque seconde d'audio représente 32 jetons, donc une minute d'audio correspond à 1 920 jetons.
  • Détection non vocale : le modèle peut reconnaître des composants non vocaux tels que des chants d'oiseau et des sirènes.
  • Longueur maximale : la longueur audio maximale prise en charge dans une invite unique est de 9,5 ⁇ heures. Vous pouvez soumettre plusieurs fichiers tant que leur durée combinée reste inférieure à 9,5 heures.
  • Rééchantillonnage : le modèle réduit les échantillons de fichiers audio à une résolution de 16 ⁇ kbps.
  • Fusion de canaux : si une source audio comporte plusieurs canaux, le modèle les fusionne en un seul canal.

Reportez-vous à Présentation audio dans la documentation de l'API Gemini.

Compréhension vidéo

Formats audio pris en charge
  • Console : non disponible
  • API : les fichiers de média pris en charge sont video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv et video/3gpp.
Entrées vidéo prises en charge pour l'API
  • Téléchargement encodé en Base64 (URL) : convertissez un format vidéo pris en charge en base64. La charge utile maximale est de 50 Mo (encodée). La taille du fichier d'origine est plus petite. Par exemple, un fichier de 37,5 Mo devient ~50 Mo lorsqu'il est encodé.
  • URI : soumettez un URI (Uniform Resource Identifier) pour accéder à la vidéo sans la télécharger. La taille maximale de la charge utile est de 100 Mo.

Pour connaître le format, reportez-vous à VideoContent Reference.

Détails techniques

Reportez-vous à Présentation vidéo dans la documentation de l'API Gemini.

Limites

Invites complexes
Le modèle Gemini 2.5 Flash peut présenter des limites en matière de compréhension causale, d'éduction logique complexe et de raisonnement contrefactuel. Pour les tâches complexes, nous vous recommandons d'utiliser le modèle Google Gemini 2.5 Pro.

Mode à la demande

Remarque

Les modèles Gemini sont disponibles uniquement en mode à la demande.
Nom du modèle Nom du modèle OCI Nom du produit de la page de tarification
Gemini 2.5 Flash google.gemini-2.5-flash Gemini 2.5 Flash
Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).
Conseil

Nous recommandons de mettre en œuvre une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de l'intégration au service.

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 128 000 jetons pour chaque exécution.

Conseil

Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum.
Température

Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2, Valeur par défaut : 1

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons top k les plus probables. Dans les modèles Gemini 2.5, le k supérieur a une valeur fixe de 64, ce qui signifie que le modèle ne prend en compte que les 64 jetons (mots ou parties de mots) les plus probables pour chaque étape de génération. Le jeton final est ensuite choisi dans cette liste.

Nombre de générations (API uniquement)

Le paramètre numGenerations de l'API contrôle le nombre d'options de réponse différentes générées par le modèle pour chaque invite.

  • Lorsque vous envoyez une invite, le modèle Gemini génère un ensemble de réponses possibles. Par défaut, elle renvoie uniquement la réponse avec la probabilité la plus élevée (numGenerations = 1).
  • Si vous augmentez le paramètre numGenerations à un nombre compris entre 2 et 8, vous pouvez demander au modèle de générer 2 à 8 réponses distinctes.