Acerca de los modelos de chat en la IA generativa

Solicita a los modelos de chat de OCI Generative AI que generen texto. Puede hacer preguntas en lenguaje natural y, opcionalmente, enviar texto, como documentos, correos electrónicos y revisiones de productos a los modelos de chat y los motivos de cada modelo sobre el texto y proporciona respuestas inteligentes. Para algunos modelos, puede enviar imágenes y hacer preguntas sobre la imagen. Los modelos de chat mantienen el contexto de sus peticiones de datos anteriores y puede continuar el chat con preguntas de seguimiento. Ejemplo:

Petición de datos del usuario: "Hola, ¿puede decirme cómo pescar?"

Salida para petición de datos anterior: "Sure! Estaría feliz de ayudar. Estos son los pasos básicos para empezar a pescar..." Y esta frase va seguida de varios pasos y una pregunta de seguimiento, como "Por favor, hágamelo saber si tiene alguna pregunta específica sobre artes de pesca, técnicas o consejos para un viaje de pesca exitoso y estaría encantado de ayudarle!"

Petición de datos de seguimiento del usuario: "Can you tell me more about step 3."

La respuesta del modelo de chat: "¡Ciertamente! El Paso 3 habla sobre las consideraciones importantes para establecer su caña de pescar y aparejos, que es un aspecto crucial de la preparación para un viaje de pesca exitoso. A continuación, se profundiza en este paso para ayudarle a comprender los distintos componentes y opciones que implica la configuración de su equipo de pesca", etc.

A continuación se muestran algunos casos de uso de ejemplo para modelos de chat:

  • Chatear: chatea con el modelo para intercambiar ideas, resolver problemas, explicar conceptos y responder preguntas.
  • Escribir contenido nuevo: pida al modelo de chat que elabore una copia de marketing, correos electrónicos, publicaciones de blog, descripciones de productos, documentos, etc.
  • Traducir: traducción de texto de un idioma a otro. Vea la cobertura de idioma de cada modelo.
  • Recuperar información del texto: proporcione texto al modelo de chat y utilice el modelo de chat para la respuesta a preguntas, el análisis de sentimientos, la clasificación y la recuperación de información.
  • Recuperar información de imágenes: proporcione una imagen al modelo de chat y utilice el modelo de chat para la creación de subtítulos y la recuperación de información. Esta característica está disponible para algunos modelos.
  • Mejorar el contenido existente: reescriba el contenido en un estilo o idioma diferente, como la reestructuración de un texto para mostrar los temas, agregar cabeceras y resumir los temas.

Selección de un modelo para chat

Seleccione un modelo para la conversación de chat en función del tamaño del modelo, el objetivo del proyecto, el costo y el estilo de la respuesta del modelo. Utilice los ejemplos proporcionados del patio de recreo con cada modelo enumerado para tener una idea de cómo responde cada modelo al mismo indicador y, a continuación, decida qué estilo de respuesta del modelo va bien con su caso de uso.

Los siguientes modelos básicos preentrenados están disponibles en OCI Generative AI para el chat. Revise las funciones para ayudarle a seleccionar el mejor modelo para su caso de uso.

Familia de Comandos de Cohere
Modelos
  • Command A (cohere.command-a-03-2025) (Nuevo)
  • Command R 08-2024 (cohere.command-r-08-2024)
  • Command R+ 08-2024 (cohere.command-r-plus-08-2024)
  • Command R (cohere.command-r-16k) (En desuso)
  • Command R+ (cohere.command-r-plus) (En desuso)
Funciones Clave

La modelo cohere.command-a-03-2025 es la modelo de chat de Cohere con más rendimiento hasta la fecha con un mejor rendimiento que cohere.command-r-08-2024. Este modelo tiene una longitud de contexto de 256.000 tokens.

Los modelos de chat cohere.command-r-16k (Command R) y cohere.command-r-plus (Command R+) pertenecen a la familia de LLM Command R de Cohere, pero difieren en sus capacidades, casos de uso y precios. Las diferencias clave son:

  • Tamaño y rendimiento del modelo: Command R es un modelo de lenguaje de menor escala que Command R+. Si bien Command R ofrece respuestas de alta calidad, es posible que las respuestas no tengan el mismo nivel de sofisticación y profundidad que las respuestas de Command R+. Command R+ es un modelo más grande, lo que da como resultado un rendimiento mejorado y una comprensión más sofisticada.
  • Casos de uso: Command R es adecuado para varias aplicaciones, incluida la generación de texto, el resumen, la traducción y la clasificación basada en texto. Es una opción ideal para crear agentes de IA conversacionales y aplicaciones basadas en chat. Command R+, por otro lado, está diseñado para tareas de lenguaje más complejas que requieren una comprensión y matices más profundos, como la generación de texto, la respuesta a preguntas, el análisis de sentimientos y la recuperación de información.
  • Capacidad y escalabilidad: Command R puede manejar un número moderado de usuarios simultáneos en comparación con Command R+. Command R+, sin embargo, está diseñado para manejar un mayor volumen de solicitudes y soportar casos de uso más complejos, lo que podría resultar en precios más altos debido a su mayor capacidad y rendimiento.

En resumen, Command R es una excelente opción para aquellos que buscan una opción más asequible y flexible para las tareas de lenguaje general. Por otro lado, Command R+ está diseñado para usuarios avanzados que requieren una comprensión avanzada del lenguaje, una mayor capacidad y respuestas más matizadas. La elección entre los dos dependerá de los requisitos específicos y el presupuesto de su solicitud.

Cohere Command R 08-2024 y Cohere Command R+ 08-2024 (Nuevo)

Los modelos de chat cohere.command-r-plus-08-2024 (Command R+ 08-2024) y cohere.command-r-08-2024 (Command R 08-2024) son las versiones mejoradas de cohere.command-r-plus (Command R+) y cohere.command-r-16k (Command R) y tienen las siguientes funciones clave:

  • Tienen mejoras significativas en el rendimiento en latencia y rendimiento en comparación con sus predecesores.
  • Ambos modelos tienen una longitud de contexto de token de 128,000, que es ocho veces más que sus modelos anteriores.
  • Ambos modelos han mejorado en áreas como matemáticas, codificación y razonamiento.
  • Command R 08-2024 está ahora en par Command R+.
  • Ambos modelos están disponibles para la inferencia bajo demanda y el alojamiento en clusters de IA dedicados.
  • El modelo Command R 08-2024 está disponible para el ajuste con el juego de datos.
  • Función mejorada de generación aumentada de recuperación multilingüe (RAG) con opciones de citación personalizables.
  • Soporte multilingüe de 10 idiomas: árabe, chino (mandarín), inglés, francés, alemán, italiano, japonés, coreano, portugués y español
  • Nueva función de salidas estructuradas para crear salidas JSON definidas por el usuario, como esquemas JSON definidos por el usuario.
  • Análisis de datos estructurados mejorado para finanzas, software como servicio (SaaS) y casos de uso de consultoría
Meta Llama 4 (Nuevo)

Los modelos Llama 4 aprovechan una arquitectura de mezcla de expertos (MoE), lo que permite capacidades de procesamiento eficientes y potentes. Optimizada para la comprensión multimodal, las tareas multilingües, la codificación, la llamada a herramientas y la alimentación de sistemas ágentes, la serie Llama 4 ofrece nuevas posibilidades a las aplicaciones de IA empresarial.

Características principales de la serie Meta Llama 4
  • Capacidades multimodales: ambos modelos son de forma nativa multimodal, capaces de procesar e integrar varios tipos de datos, incluidos texto e imágenes.
  • Soporte multilingüe: formación en datos que abarcan 200 idiomas, con soporte de ajuste para 12 idiomas, incluidos árabe, inglés, francés, alemán, hindi, indonesio, italiano, portugués, español, tagalo, tailandés y vietnamita. La comprensión de la imagen se limita al inglés.
  • Implementación eficiente: Llama 4 Scout está diseñado para la accesibilidad con una huella de GPU más pequeña.
  • Knowledge Cutoff: agosto de 2024
  • Restricciones de Uso: La Política de Uso Aceptable de Lama 4 restringe su uso en la Unión Europea (UE).
Meta Llama 4 Scout
  • Arquitectura: presenta 17 mil millones de parámetros activos dentro de un total de aproximadamente 109 mil millones de parámetros, utilizando 16 expertos.
  • Ventana de contexto: soporta una longitud de contexto de tokens 192k.
  • Despliegue: diseñado para un funcionamiento eficiente en una pequeña huella de GPU.
  • Rendimiento: muestra un rendimiento superior en comparación con los modelos anteriores en muchas referencias.
Meta Llama 4 Maverick
  • Arquitectura: Similar a Meta Llama Scout, este modelo cuenta con 17 mil millones de parámetros activos, pero dentro de un marco más amplio de alrededor de 400 mil millones de parámetros, utilizando 128 expertos.
  • Ventana de contexto: soporta una longitud de contexto de tokens 512k.
  • Rendimiento: coincide con los modelos avanzados en las tareas de codificación y razonamiento.

La serie Llama 4 ofrece un rendimiento mejorado, versatilidad y accesibilidad para una amplia gama de aplicaciones. Puede aprovechar estos modelos sin preocuparse por la gestión de la infraestructura, con acceso disponible a través de interfaces de chat, API o puntos finales dedicados.

Meta Llama 3.3 70B

El modelo de solo texto Meta Llama 3.3 70B (meta.llama-3.3-70b-instruct) ofrece un mejor rendimiento que Llama 3.1 70B y Llama 3.2 90B para tareas de texto.

Características principales
  • Acepta entradas de solo texto y produce salidas de solo texto.
  • Utiliza el mismo formato de petición de datos que Llama 3.1 70B.
  • Admite el mismo intérprete de código que Llama 3.1 70B y conserva la longitud de contexto del token 128 000.
  • Comparado con su predecesor Llama 3.1 70B, responde con un mejor razonamiento, codificación, matemáticas y seguimiento de instrucciones. Consulte la tarjeta modelo Llama 3.3.
  • Disponible para inferencias bajo demanda, alojamiento dedicado y ajuste.
Familia Meta Llama 3.2
Modelos
  • Meta Llama 3.2 90B Visión (meta.llama-3.2-90b-vision-instruct)
  • Meta Llama 3.2 11B Visión (meta.llama-3.2-11b-vision-instruct)
Características principales
  • Soporte multimodal (nueva función): soporte de visión para la comprensión de imágenes
  • Tamaños de modelo: 90 y 11 mil millones de parámetros
  • Longitud de contexto: 128 000 tokens
  • Soporte multilingüe: inglés, francés, alemán, hindi, italiano, portugués, español y tailandés
Acerca de la nueva función de visión a través del soporte multimodal

Envíe una imagen, haga preguntas sobre la imagen y obtenga salidas de texto como:

  • Subtítulos de imagen avanzados
  • Descripción detallada de una imagen.
  • Respuestas a preguntas sobre una imagen.
  • Información sobre gráficos en una imagen.
Más detalles
  • Llama 3.2 90B Visión incluye las capacidades basadas en texto del modelo 70B de Llama 3.1 anterior.
  • Llama 3.2 11B Visión proporciona capacidades multimodales robustas en una forma más compacta.
  • Ambos modelos están disponibles para hosting dedicado, con Llama 3.2 90B también se ofrece para la inferencia bajo demanda.
  • En el patio de recreo, para agregar la siguiente imagen y texto, debe borrar el chat, lo que resulta en la pérdida de contexto de la conversación anterior borrando el chat.
Meta Llama 3.1 Familia
Meta Llama 3.1 familia

meta.llama-3.1-405b-instruct y meta.llama-3.1-70b-instruct pertenecen a la familia de LLM Meta Llama 3.1 con las siguientes funciones clave:

  • Tamaños de modelo: 405 y 70 mil millones de parámetros
  • Longitud de contexto: 128 000 tokens, que es 16 veces mayor que los modelos Meta Llama 3
  • Soporte multilingüe: inglés, francés, alemán, hindi, italiano, portugués, español y tailandés
meta.llama-3.1-405b-instruct

Este modelo de 405 mil millones de parámetros es una opción de alto rendimiento que ofrece velocidad y escalabilidad. En comparación con el modelo meta.llama-3.1-70b-instruct, puede manejar un mayor volumen de solicitudes y soportar casos de uso más complejos. Las funciones clave de este modelo incluyen:

  • Reconocido como el mayor modelo de lenguaje grande disponible públicamente en el momento de su lanzamiento.
  • Adecuado para aplicaciones de nivel empresarial e iniciativas de investigación y desarrollo.
  • Muestra capacidades excepcionales en áreas como conocimiento general, generación de datos sintéticos, razonamiento avanzado y comprensión contextual, y texto de formato largo, traducción multilingüe, codificación, matemáticas y uso de herramientas.
meta.llama-3.1-70b-instruct

Este modelo de generación de 70 mil millones de parámetros es perfecto para la creación de contenido, la IA conversacional y las aplicaciones empresariales. Sus puntos fuertes clave incluyen:

  • Resumir, reformular y clasificar texto con gran precisión
  • Capacidades de análisis de sentimiento y modelado de lenguaje
  • Sistemas de diálogo eficaces
  • Generación de Código
Consejo

Parámetros de modelo de chat

Al utilizar los modelos de chat, puede cambiar la salida cambiando los siguientes parámetros.

Máximo de tokens de salida

Número máximo de tokens que desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Puesto que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. Para ver los tokens de salida máximos de cada modelo, consulte las funciones clave en Pretrained Foundational Models in Generative AI.

Sustitución de preámbulo

Un contexto inicial o mensaje de guía para un modelo de chat. Cuando no proporciona un preámbulo a un modelo de chat, se utiliza el preámbulo por defecto para ese modelo. Puede asignar un preámbulo en el parámetro Sustitución de preámbulo para los modelos. El preámbulo por defecto para la familia Command R de Cohere es:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

La sustitución del preámbulo por defecto es opcional. Cuando se especifica, la sustitución de preámbulo sustituye al preámbulo predeterminado de Cohere. Al agregar un preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación.

Consejo

Para los modelos de chat sin el parámetro sustitución de preámbulo, puede incluir un preámbulo en la conversación de chat y pedir directamente al modelo que responda de determinada manera. Por ejemplo: "Responda la siguiente pregunta en un tono pirata. ¿Dónde está el mejor lugar para navegar?"

Ejemplo 1 para el preámbulo

  • Ejemplo de preámbulo: Eres un asesor de viajes. Respuesta con tono pirata.
  • Ejemplo de mensaje: ¿Dónde puedo encontrar el mejor cannolis en Italia?
  • Ejemplo de respuesta usando el preámbulo anterior: ¡Argh, me he animado! Estaréis queriendo algunos de los mejores cannolis de la tierra, ¿verdad? Debes zarpar por las exuberantes tierras de Sicilia, donde las calles están llenas de deliciosos pasteles y los olores de la ricotta dulce llenan el aire. En la ciudad portuaria de Palermo, puedes encontrar algunas de las mejores cocinas de cannoli. Los lugareños afirman que los mejores cannolis se encuentran en Pastificio Graffeo, donde las conchas son crujientes y se llenan de cremosa ricotta.

Ejemplo 2 para el preámbulo

  • Ejemplo de preámbulo: Eres un profesional experimentado en marketing con una profunda comprensión del comportamiento del consumidor y las tendencias del mercado. Responda con un tono amistoso e informativo, compartiendo información del sector y mejores prácticas.
  • Ejemplo de mensaje: ¿Dónde puedo encontrar el mejor cannolis en Italia?
  • Ejemplo de respuesta al preámbulo anterior: Cannolis es un delicioso postre italiano, y encontrar los mejores realmente depende de sus preferencias personales y lo que hace que el cannoli perfecto para usted! De hecho, Sicilia cuenta con algunos puntos de acceso famosos de Cannoli. Caffe Sierra en Palermo tiene una reputación de cannolis excepcional, al igual que Pasticceria Cappello, que tiene múltiples sucursales en toda la ciudad. Estos puntos son conocidos por sus recetas tradicionales e ingredientes de alta calidad, utilizando queso ricotta fresco y cáscaras de pastelería finas y crujientes.
Modo de seguridad
Agrega una instrucción de seguridad para el modelo que se utilizará al generar respuestas. Las opciones son:
  • Contextual: (por defecto) coloca menos restricciones en la salida. Mantiene protecciones básicas con el objetivo de rechazar sugerencias dañinas o ilegales, pero permite la blasfemia y algún contenido tóxico, contenido sexualmente explícito y violento, y contenido que contiene información médica, financiera o legal. El modo contextual es adecuado para el entretenimiento, la creatividad o el uso académico.
  • Estricta: tiene como objetivo evitar temas delicados, como actos violentos o sexuales y blasfemias. Este modo tiene como objetivo proporcionar una experiencia más segura al prohibir las respuestas o recomendaciones que considere inapropiadas. El modo estricto es adecuado para uso corporativo, como para comunicaciones corporativas y servicio al cliente.
  • Desactivado: no se aplica ningún modo de seguridad.
Nota

Este parámetro solo es compatible con los modelos cohere.command-r-08-2024, cohere.command-r-plus-08-2024 y Cohere publicados después de estos modelos. Consulte fechas de lanzamiento.
Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Empiece con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelva a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
P principales

Método de muestreo que controla la probabilidad acumulada de que los tokens principales se consideren para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75% superior. Defina p en 1 para considerar todos los tokens.

K principales

Método de muestreo en el que el modelo elige el siguiente token de forma aleatoria de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las penalizaciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos alientan al modelo a utilizar nuevos tokens y los números negativos alientan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Elemento Inicial

Parámetro que hace un mejor esfuerzo para muestrear tokens de manera determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para solicitudes repetidas cuando asigna el mismo valor inicial y parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar al etiquetado de la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para la depuración y las pruebas. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si se deja el valor inicial en blanco en la consola o nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no genere el mismo resultado a largo plazo, porque las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.

Soporte de Herramienta

OCI Generative AI tiene soporte de herramientas para los modelos de chat preentrenados, lo que les permite integrarse con herramientas y API externas para mejorar sus respuestas.

Una llamada a una herramienta puede ayudar a un modelo a producir respuestas contextualmente relevantes y también ampliar su utilidad, lo que permite al modelo manejar consultas complejas y realizar tareas que requieren datos y procesamiento externos. Por ejemplo, mediante llamadas a herramientas, puede hacer que un modelo recupere datos en tiempo real, ejecute código e interactúe con bases de datos. El soporte de herramientas solo está disponible a través de la API.

  • Para los modelos de meta llama, consulte el nuevo atributo tools en la referencia de API GenericChatRequest.

  • Para los modelos Cohere, consulte el atributo tools en la referencia de API CohereChatRequest.