Comando R de Cohere (en desuso)

El modelo cohere.command-r-16k (Command R) es una excelente opción para aquellos que buscan una opción más asequible y flexible para tareas de lenguaje general. Por otro lado, Command R+ está diseñado para usuarios avanzados que requieren una comprensión avanzada del lenguaje, una mayor capacidad y respuestas más matizadas. La elección entre los dos dependerá de los requisitos específicos y el presupuesto de su aplicación.

Disponible en estas regiones

  • Este de Brasil (São Paulo)
  • Centro de Alemania (Fráncfort)
  • Japan Central (Osaka) (solo cluster de IA dedicado)
  • Sur de Reino Unido (Londres)
  • Medio Oeste de EE. UU. (Chicago)

Características clave

  • Para la inferencia dedicada, cree un cluster de AI dedicado y un punto final y aloje el modelo en el cluster.
  • Petición de datos máxima + longitud de respuesta: 16.000 tokens para cada ejecución.
  • Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución.
  • Al ajustar este modelo, la longitud de respuesta del modelo se limita a 4.000 tokens por cada ejecución.
  • Para el modo dedicado, la longitud de la respuesta no se limita y la longitud del contexto es de 16 000 tokens.
  • Optimizado para la interacción conversacional y tareas de contexto largas. Ideal para generación de texto, resumen, traducción y clasificación basada en texto.
  • Puede ajustar este modelo con su juego de datos.

Command R comparado con R+

  • Tamaño del modelo y rendimiento: Command R es un modelo de lenguaje de menor escala que Command R+. Si bien Command R ofrece respuestas de alta calidad, es posible que las respuestas no tengan el mismo nivel de sofisticación y profundidad que las respuestas del comando R+. Command R+ es un modelo más grande, lo que resulta en un rendimiento mejorado y entendimientos más sofisticados.
  • Casos de uso: Command R es adecuado para varias aplicaciones, incluida la generación de texto, el resumen, la traducción y la clasificación basada en texto. Es una opción ideal para crear agentes de IA conversacional y aplicaciones basadas en chat. Command R+, por otro lado, está diseñado para tareas de lenguaje más complejas que requieren una comprensión y matices más profundos, como la generación de texto, la respuesta a preguntas, el análisis de sentimientos y la recuperación de información.
  • Capacidad y escalabilidad: Command R puede manejar un número moderado de usuarios simultáneos en comparación con Command R+. Command R+, sin embargo, está diseñado para manejar un mayor volumen de solicitudes y admitir casos de uso más complejos, lo que podría resultar en precios más altos debido a su mayor capacidad y rendimiento.

En resumen, Command R es una excelente opción para aquellos que buscan una opción más asequible y flexible para tareas de lenguaje general. Por otro lado, Command R+ está diseñado para usuarios avanzados que requieren una comprensión avanzada del lenguaje, una mayor capacidad y respuestas más matizadas. La elección entre los dos dependerá de los requisitos específicos y el presupuesto de su aplicación.

Cluster de IA dedicado para el modelo

En la lista de regiones anterior, los modelos de regiones que no están marcados con (solo clúster de IA dedicada) tienen opciones de clúster de IA dedicado y bajo demanda. Para la opción bajo demanda, no necesita clusters y puede acceder al modelo en el patio de juegos de la consola o a través de la API.

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.

Modelo base Cluster de Ajuste Cluster de alojamiento Información de página de asignación de precios Aumento de límite de cluster de solicitud
  • Nombre de modelo: Cohere Command R
  • Nombre del modelo de OCI: cohere.command-r-16k (en desuso)
  • Tamaño de unidad: Small Cohere V2
  • Unidades necesarias: 8
  • Tamaño de unidad: Small Cohere V2
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Small Cohere - Dedicated
  • Para el ajuste, multiplique el precio unitario: x8
  • Nombre de límite: dedicated-unit-small-cohere-count
  • Para el alojamiento, solicite un aumento del límite en: 1
  • Para el ajuste, solicite un aumento del límite en: 8
Consejo

  • Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo Cohere Command R (en desuso) en un cluster de AI dedicado, solicite que el límite dedicated-unit-small-cohere-count aumente en 1.

  • Para ajustar un modelo Cohere Command R (en desuso), debe solicitar que dedicated-unit-small-cohere-count aumente en 8.

  • Revise las referencias de rendimiento del cluster de Cohere Command R para diferentes casos de uso.

Fechas de liberación y baja

Modelo Fecha de liberación Fecha de baja bajo demanda Fecha de baja en modo dedicado
cohere.command-r-08-2024 2.024-6-4 2.025-1-16 2.025-8-7
Importante

Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.

Sustitución de preámbulo

Contexto inicial o mensaje que guía a una modelo de chat. Cuando no asigna un preámbulo a una modelo de chat, se utiliza el preámbulo por defecto para esa modelo. Puede asignar un preámbulo en el parámetro Sustitución de preámbulo para los modelos. El preámbulo predeterminado para la familia Cohere es:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

La sustitución del preámbulo por defecto es opcional. Cuando se especifica, la sustitución del preámbulo reemplaza el preámbulo predeterminado de Cohere. Al agregar un preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación.

Consejo

Para los modelos de chat sin el parámetro sustitución de preámbulo, puede incluir un preámbulo en la conversación de chat y pedir directamente al modelo que responda de una forma determinada.
Modo de seguridad
Agrega una instrucción de seguridad para que el modelo la use al generar respuestas. Las opciones son las siguientes:
  • Contextual: (por defecto) pone menos restricciones en la salida. Mantiene protecciones básicas con el objetivo de rechazar sugerencias dañinas o ilegales, pero permite contenido obsceno y tóxico, contenido sexualmente explícito y violento, y contenido que contiene información médica, financiera o legal. El modo contextual es adecuado para entretenimiento, uso creativo o académico.
  • Estricta: tiene como objetivo evitar temas delicados, como actos violentos o sexuales y blasfemias. Este modo tiene como objetivo proporcionar una experiencia más segura al prohibir las respuestas o recomendaciones que considere inapropiadas. El modo estricto es adecuado para uso corporativo, como para comunicaciones corporativas y servicio al cliente.
  • Desactivado: no se aplica ningún modo de seguridad.
Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Valor inicial

Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.