Google Gemini 2.5 Flash

El modelo Gemini 2.5 Flash (google.gemini-2.5-flash) es un modelo multimodal de razonamiento rápido que ofrece un equilibrio de precio, rendimiento y una amplia gama de capacidades, incluidas las funciones de pensamiento. Los modelos Gemini 2.5 Flash y Gemini 2.5 Flash-Lite son modelos eficientes. Flash-Lite está optimizado para un menor costo y un rendimiento más rápido en tareas de alto volumen y menos complejas. Gemini 2.5 Flash ofrece un equilibrio de velocidad e inteligencia para aplicaciones más complejas.

Disponible en esta región

  • Este de EE. UU. (Ashburn) (solo Oracle Interconnect for Google Cloud) y (solo bajo demanda)
  • Medio oeste de EE. UU. (Chicago) (solo bajo demanda)
  • Oeste de EE. UU. (Phoenix) (solo bajo demanda)
Importante

Llamadas Externas

Los modelos de Google Gemini 2.5 a los que se puede acceder a través del servicio OCI Generative AI, se alojan externamente en Google. Por lo tanto, una llamada a un modelo de Google Gemini (a través del servicio OCI Generative AI) da como resultado una llamada a una ubicación de Google.

Características clave

  • Nombre del modelo en OCI Generative AI: google.gemini-2.5-flash
  • Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
  • Soporte multimodal: introduzca texto, código e imágenes y obtenga una salida de texto. Las entradas de archivos de audio y vídeo solo se admiten a través de la API. Consulte Image Understanding, Audio Understanding y Video Understanding.
  • Conocimiento: tiene un profundo conocimiento de dominio en ciencia, matemáticas y código.
  • Longitud de contexto: un millón de tokens
  • Máximo de tokens de entrada: 1 048 576 (consola y API)
  • Tokens de salida máximos: 65 536 (por defecto) (consola y API)
  • Excels en estos casos de uso: para tareas cotidianas de uso general que requieren un modelo rápido y rentable con sólidas capacidades de razonamiento. Por ejemplo, para la mayoría de las aplicaciones orientadas al usuario, donde se necesita una respuesta rápida, pero inteligente.
  • Tiene razonamiento: sí. Incluye razonamiento visual y texto y comprensión de imágenes. Para problemas de razonamiento, aumente el número máximo de tokens de salida. Consulte Parámetros de modelo.
  • Cierre de conocimiento: enero de 2025

Consulte la siguiente tabla para conocer las funciones admitidas en Google Vertex AI Platform para OCI Generative, con enlaces a cada función.

Características compatibles de Gemini 2.5 Pro
Función ¿Soportado?
Ejecución de código
Ajuste No
Instrucciones del sistema
Salida estructurada
Predicción por lotes No
Llamada de función
Tokens de recuento No
Pensativo Sí, pero no se admite la desactivación del proceso de pensamiento.
Almacenamiento en caché de contexto Sí, el modelo puede almacenar en caché los tokens de entrada, pero esta función no se controla mediante la API.
Motor RAG de Vertex AI No
Finalizaciones de chat
Conexión a tierra No

Para obtener detalles sobre las funciones clave, consulte la documentación de Google Gemini 2.5 Flash y la tarjeta modelo Gemini 2.5 Flash.

Descripción de imagen

Tamaño de Imagen
  • Consola: tamaño máximo de imagen: 5 MB
  • API: Máximo de imágenes por petición de datos: 3.000 y tamaño máximo de imagen antes de la codificación: 7 MB
Entradas de imagen soportadas
  • Consola: formatos png y jpeg
  • API: en la operación Chat, ejecute una versión codificada base64 de una imagen. Por ejemplo, una imagen de 512 x 512 normalmente se convierte en alrededor de 1.610 tokens. Los tipos MIME soportados son: image/png, image/jpeg, image/webp, image/heic y image/heif. Para obtener el formato, consulte ImageContent Reference.
Detalles técnicos
Admite detección de objetos y segmentación. Consulte Image Understanding en la documentación de la API Gemini.

Comprensión de audio

Formatos de audio admitidos
  • Consola: no disponible
  • API: los archivos de medios soportados son audio/wav, audio/mp3, audio/aiff, audio/aac, audio/ogg y audio/flac.
Entradas de audio admitidas para la API
  • URL: convierta un formato de audio soportado en una versión codificada base64 del archivo de audio.
  • URI: ejecute el audio en un formato de identificador uniforme de recursos (URI) para que sin cargar el archivo, el modelo pueda acceder al audio.

Para obtener el formato, consulte AudioContent Reference.

Detalles técnicos
  • Conversión de token Cada segundo de audio representa 32 tokens, por lo que un minuto de audio corresponde a 1.920 tokens.
  • Detección sin voz: el modelo puede reconocer componentes sin voz, como canciones de aves y sirenas.
  • Longitud máxima: la longitud máxima de audio admitida en un único indicador es de 9,5 ⁇ hours. Puede enviar varios archivos siempre que su duración combinada permanezca por debajo de las 9.5 horas.
  • Desmuestreo: el modelo reduce los archivos de audio a una resolución de 16 ⁇ kbps.
  • Fusión de canales: si una fuente de audio tiene varios canales, el modelo los fusiona en un solo canal.

Consulte Audio Understanding en la documentación de la API Gemini.

Descripción de vídeo

Formatos de audio admitidos
  • Consola: No disponible
  • API: los archivos de medios soportados son video/mp4, video/mpeg, video/mov, video/avi, video/x-flv, video/mpg, video/webm, video/wmv y video/3gpp.
Entradas de vídeo soportadas para la API
  • URL: convierta un formato de vídeo soportado en una versión codificada base64 del archivo de vídeo.
  • URI: envíe el vídeo en formato de identificador uniforme de recursos (URI) para que sin cargar el archivo, el modelo pueda acceder al vídeo.

Para obtener el formato, consulte VideoContent Reference.

Detalles técnicos

Consulte Video Understanding en la documentación de la API Gemini.

Limitaciones

Peticiones de datos complejas
El modelo Gemini 2.5 Flash podría mostrar limitaciones en torno a la comprensión causal, la educación lógica compleja y el razonamiento contrafáctico. Para tareas complejas, recomendamos utilizar el modelo Google Gemini 2.5 Pro.

Modo bajo demanda

Nota

Los modelos Gemini solo están disponibles en el modo bajo demanda.
Nombre de modelo Nombre de modelo de OCI Nombre de producto de página de asignación de precios
Gemini 2.5 Flash google.gemini-2.5-flash Gemini 2.5 Flash
Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:
  • Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.

  • Baja barrera para empezar a utilizar la IA generativa.
  • Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
  • Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Consejo

Recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.

Fecha de liberación

Modelo Fecha de liberación Fecha de baja bajo demanda Fecha de baja en modo dedicado
google.gemini-2.5-flash 2025-10-01 Provisional Este modelo no está disponible para el modo dedicado.
Importante

Para obtener más información sobre el desuso y la baja del modelo de OCI Generative AI, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución.

Consejo

Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo.
Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. En los modelos Gemini 2.5, el top k tiene un valor fijo de 64, lo que significa que el modelo considera solo los 64 tokens más probables (palabras o partes de palabras) para cada paso de generación. A continuación, se selecciona el token final de esta lista.

Número de generaciones (solo API)

El parámetro numGenerations de la API controla cuántas opciones de respuesta diferentes genera el modelo para cada petición de datos.

  • Cuando se envía una petición de datos, el modelo Gemini genera un conjunto de posibles respuestas. Por defecto, devuelve solo la respuesta con la mayor probabilidad (numGenerations = 1).
  • Si aumenta el parámetro numGenerations a un número entre o igual a 2 y 8, puede hacer que el modelo genere de 2 a 8 respuestas distintas.