Google Gemini 2.5 Flash-Lite

Le modèle Gemini 2.5 Flash-Lite (google.gemini-2.5-flash-lite) est le modèle de raisonnement multimodal le plus rapide et le plus économique de la famille 2.5, optimisé pour une faible latence. Les modèles Gemini 2.5 Flash et Gemini 2.5 Flash-Lite sont tous deux des modèles efficaces. Flash-Lite est optimisé pour des coûts réduits et des performances plus rapides sur des tâches volumineuses et moins complexes. Gemini 2.5 Flash offre un équilibre entre rapidité et intelligence pour des applications plus complexes.

Disponible dans cette région

  • Est des Etats-Unis (Ashburn) (Oracle Interconnect for Google Cloud uniquement) et (à la demande uniquement)
  • Midwest des Etats-Unis (Chicago) (à la demande uniquement)
  • Ouest des Etats-Unis (Phoenix) (à la demande uniquement)
Important

Appels externes

Les modèles Google Gemini 2.5 accessibles via le service OCI Generative AI sont hébergés en externe par Google. Par conséquent, un appel à un modèle Google Gemini (via le service OCI Generative AI) entraîne un appel vers un emplacement Google.

Principales fonctionnalités

  • Nom du modèle dans OCI Generative AI : google.gemini-2.5-flash-lite
  • Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
  • Prise en charge multimodale : saisissez du texte, du code et des images et obtenez une sortie texte. Les entrées de fichier audio et vidéo sont prises en charge par l'API uniquement. Reportez-vous aux sections Compréhension de l'image, Compréhension audio et Compréhension vidéo.
  • Connaissances : possède une connaissance approfondie du domaine en sciences, en mathématiques et en code.
  • Longueur de contexte : un million de jetons
  • Nombre maximal de jetons d'entrée : 1 048 576 (console et API)
  • Nombre maximal de jetons de sortie : 65 536 (valeur par défaut) (console et API)
  • Excelle dans ces cas d'utilisation : pour les tâches à usage général, à haut débit et sensibles aux coûts qui ne nécessitent pas de raisonnement complexe, telles que la classification, la traduction et le routage intelligent. Par exemple, les demandes de support client et la synthèse de documents à grande échelle.
  • A un raisonnement : Oui. Inclut le raisonnement textuel et visuel et la compréhension de l'image. Les problèmes de raisonnement augmentent le nombre maximal de jetons de sortie. Reportez-vous à Paramètres de modèle.
  • Limite de connaissances : janvier 2025

Reportez-vous au tableau suivant pour connaître les fonctionnalités prises en charge dans Google Vertex AI Platform for OCI Generative, avec des liens vers chaque fonctionnalité.

Fonctionnalités prises en charge de Gemini 2.5 Pro
Fonction Pris en charge ?
Exécution de code Oui
Réglage Non
Instructions système Oui
Sortie structurée Oui
Prédiction par lots Non
Appel de fonction Oui
Compter les jetons Non
Réflexion Non
Mise en cache du contexte Oui, le modèle peut mettre en cache les jetons d'entrée, mais cette fonctionnalité n'est pas contrôlée via l'API.
Moteur Vertex AI RAG Non
Achèvements de discussion Oui
Mise à la terre Non

Pour plus d'informations sur les principales fonctionnalités, reportez-vous à la documentation Flash-Lite de Google Gemini 2.5.

Présentation de l'image

Taille de l'image
  • Console : taille maximale de l'image : 5 Mo
  • API : images maximum par invite : 3 000 et taille d'image maximum avant encodage : 7 Mo
Entrées d'image prises en charge
  • Console : formats png et jpeg
  • API : dans l'opération Chat, soumettez une version d'image encodée en base64. Par exemple, une image 512 x 512 convertit généralement en environ 1 610 jetons. Les types MIME pris en charge sont : image/png, image/jpeg, image/webp, image/heic et image/heif. Pour connaître le format, reportez-vous à ImageContent Reference.
Détails techniques
Prend en charge la détection d'objets et la segmentation. Reportez-vous à Image Understanding dans la documentation de l'API Gemini.

Présentation audio

Formats audio pris en charge
  • Console : non disponible
  • API : les fichiers de média pris en charge sont audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg et audio/flac.
Entrées audio prises en charge pour l'API
  • URL : convertissez un format audio pris en charge en une version codée base64 du fichier audio.
  • URI : soumettez l'audio au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder à l'audio sans télécharger le fichier.

Pour connaître le format, reportez-vous à AudioContent Reference.

Détails techniques
  • Conversion de jeton Chaque seconde d'audio représente 32 jetons, donc une minute d'audio correspond à 1 920 jetons.
  • Détection non vocale : le modèle peut reconnaître des composants non vocaux tels que des chants d'oiseau et des sirènes.
  • Longueur maximale : la longueur audio maximale prise en charge dans une invite unique est de 9,5 ⁇ heures. Vous pouvez soumettre plusieurs fichiers tant que leur durée combinée reste inférieure à 9,5 heures.
  • Rééchantillonnage : le modèle réduit les échantillons de fichiers audio à une résolution de 16 ⁇ kbps.
  • Fusion de canaux : si une source audio comporte plusieurs canaux, le modèle les fusionne en un seul canal.

Reportez-vous à Présentation audio dans la documentation de l'API Gemini.

Compréhension vidéo

Formats audio pris en charge
  • Console : non disponible
  • API : les fichiers de média pris en charge sont video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv et video/3gpp.
Entrées vidéo prises en charge pour l'API
  • URL : convertissez un format vidéo pris en charge en une version codée en base64 du fichier vidéo.
  • URI : soumettez la vidéo au format URI (Uniform Resource Identifier) afin que le modèle puisse accéder à la vidéo sans télécharger le fichier.

Pour connaître le format, reportez-vous à VideoContent Reference.

Détails techniques

Reportez-vous à Présentation vidéo dans la documentation de l'API Gemini.

Limites

Invites complexes
Le processus de réflexion du modèle Gemini 2.5 Flash-Lite est désactivé afin de hiérarchiser la vitesse et le coût. Il n'est donc pas adapté aux tâches complexes. Pour les tâches complexes, nous vous recommandons d'utiliser le modèle Google Gemini 2.5 Pro.

Mode à la demande

Remarque

Les modèles Gemini sont disponibles uniquement en mode à la demande.
Nom du modèle Nom du modèle OCI Nom du produit de la page de tarification
Gemini 2.5 Flash-Lite google.gemini-2.5-flash-lite Gemini 2.5 Flash Lite
Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).
Conseil

Nous recommandons de mettre en œuvre une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de votre intégration au service.

Date de lancement

Modèle Date de lancement Date de sortie à la demande Date de retrait du mode dédié
google.gemini-2.5-flash-lite 2025-10-01 Provisoire Ce modèle n'est pas disponible pour le mode dédié.
Important

Pour en savoir plus sur l'abandon et la mise hors service du modèle OCI Generative AI, reportez-vous à Mise hors service des modèles.

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs de certains paramètres dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. Le jeton de sortie maximum pour la série de modèles Gemini 2.5 est de 65 536 jetons (par défaut) pour chaque exécution.

Conseil

Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum.
Température

Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2, Valeur par défaut : 1

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons top k les plus probables. Dans les modèles Gemini 2.5, le k supérieur a une valeur fixe de 64, ce qui signifie que le modèle ne prend en compte que les 64 jetons (mots ou parties de mots) les plus probables pour chaque étape de génération. Le jeton final est ensuite choisi dans cette liste.

Nombre de générations (API uniquement)

Le paramètre numGenerations de l'API contrôle le nombre d'options de réponse différentes générées par le modèle pour chaque invite.

  • Lorsque vous envoyez une invite, le modèle Gemini génère un ensemble de réponses possibles. Par défaut, elle renvoie uniquement la réponse avec la probabilité la plus élevée (numGenerations = 1).
  • Si vous augmentez le paramètre numGenerations à un nombre compris entre 2 et 8, vous pouvez demander au modèle de générer 2 à 8 réponses distinctes.