Google Gemini 2.5 Pro (Beta)

Importante

Consulte Oracle Legal Notices.

El modelo Gemini 2.5 Pro (google.gemini-2.5-pro) es un modelo multimodal de razonamiento que sobresale en la resolución de problemas complejos y es el modelo Gemini de razonamiento más avanzado hasta la fecha. Este modelo es la siguiente iteración y se preforma mejor que la serie Gemini 2.0. El modelo Gemini 2.5 Pro es ideal para comprender grandes conjuntos de datos y problemas complejos de diferentes tipos de entrada, como texto, imágenes y código.

Disponible en esta región

  • Este de EE. UU. (Ashburn) (solo bajo demanda)
Importante

Llamadas externas

Los modelos de Google Gemini 2.5 a los que se puede acceder a través del servicio OCI Generative AI, se alojan externamente en Google. Por lo tanto, una llamada a un modelo de Google Gemini (a través del servicio OCI Generative AI) da como resultado una llamada a una ubicación de Google.

Características clave

  • Nombre del modelo en OCI Generative AI: google.gemini-2.5-pro
  • Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
  • Soporte multimodal: introduzca texto, código e imágenes y obtenga una salida de texto. No se admiten entradas de archivos como archivos de audio, vídeo y documento. Consulte Límites para conocer los tipos y tamaños de las entradas de imagen.
  • Conocimiento: tiene un profundo conocimiento de dominio en ciencia, matemáticas y código.
  • Longitud de contexto: un millón de tokens
  • Máximo de tokens de entrada: 1 048 576 (consola y API)
  • Tokens de salida máximos: 65 536 (por defecto) (consola y API)
  • Excels en estos casos de uso: aplicaciones que requieren un potente pensamiento en profundidad, un razonamiento mejorado, explicaciones detalladas y un conocimiento profundo, como codificación avanzada, análisis científicos y extracción de contenido complejo.
  • Tiene razonamiento: sí. También es fuerte en el razonamiento visual y la comprensión de la imagen. Para problemas de razonamiento, aumente el número máximo de tokens de salida. Consulte Parámetros de modelo.
  • Cierre de conocimiento: enero de 2025

Consulte la siguiente tabla para conocer las funciones admitidas en Google Vertex AI Platform (Beta) para OCI Generative, con enlaces a cada función.

Características compatibles de Gemini 2.5 Pro
Función ¿Soportado?
Ejecución de código
Ajuste No
Instrucciones del sistema
Salida estructurada
Predicción por lotes No
Llamada de función
Tokens de recuento No
Pensativo Sí, pero no se admite la desactivación del proceso de pensamiento.
Almacenamiento en caché de contexto Sí, el modelo puede almacenar en caché los tokens de entrada, pero esta función no se controla mediante la API.
Motor RAG de Vertex AI No
Finalizaciones de chat

Para obtener más información sobre las funciones clave, consulte la documentación de Google Gemini 2.5 Pro y la tarjeta modelo de Google Gemini 2.5 Pro.

Límites

Entradas de imagen
  • Consola: cargue una o más imágenes .png o .jpg, cada una de 5 MB o menos.
  • API: ejecute una versión codificada base64 de una imagen. Por ejemplo, una imagen de 512 x 512 normalmente se convierte en alrededor de 1.610 tokens. Los tipos MIME soportados son image/png, image/jpeg y image/webp.
    • Máximo de imágenes por petición de datos: 3.000
    • Tamaño máximo de la imagen antes de la codificación: 7 MB

Modo bajo demanda

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:
  • Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.

  • Baja barrera para empezar a utilizar la IA generativa.
  • Ideal para experimentar, probar conceptos y evaluar los modelos.
  • Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Consejo

Para garantizar un acceso fiable a los modelos de IA generativa en el modo bajo demanda, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.

Nota

Los modelos Gemini solo están disponibles en el modo bajo demanda.
Nombre de modelo Nombre de modelo de OCI Obtención de acceso
Gemini 2.5 Pro (Beta) google.gemini-2.5-pro Contact Oracle Beta Programs

Fecha de liberación

Modelo Fecha de lanzamiento beta Fecha de baja bajo demanda Fecha de baja en modo dedicado
google.gemini-2.5-pro 2.025-8-29 Provisional Este modelo no está disponible para el modo dedicado.
Importante

Para obtener más información sobre el desuso y la baja del modelo de OCI Generative AI, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución.

Consejo

Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo.
Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. En los modelos Gemini 2.5, el top k tiene un valor fijo de 64, lo que significa que el modelo considera solo los 64 tokens más probables (palabras o partes de palabras) para cada paso de generación. A continuación, se selecciona el token final de esta lista.

Número de generaciones (solo API)

El parámetro numGenerations de la API controla cuántas opciones de respuesta diferentes genera el modelo para cada petición de datos.

  • Cuando se envía una petición de datos, el modelo Gemini genera un conjunto de posibles respuestas. Por defecto, devuelve solo la respuesta con la mayor probabilidad (numGenerations = 1).
  • Si aumenta el parámetro numGenerations a un número entre o igual a 2 y 8, puede hacer que el modelo genere de 2 a 8 respuestas distintas.