Comando Cohere (52B)

El modelo cohere.command está en desuso.

Importante

El modelo cohere.command soportado para el modo de servicio bajo demanda ahora se ha dado de baja y este modelo está en desuso para el modo de servicio dedicado. Si aloja cohere.command en un cluster de IA dedicado (modo de servicio dedicado), puede seguir utilizando esta réplica de modelo alojado con la API de generación y resumen y en el patio de recreo hasta que el modelo cohere.command se retire para el modo de servicio dedicado. Este modelo, cuando se aloja en un cluster de IA dedicado, solo está disponible en US Midwest (Chicago). Consulte Baja de los modelos para conocer las fechas y definiciones de baja. Le recomendamos que utilice los modelos de chat en su lugar, que ofrecen las mismas capacidades de generación de texto y resumen, incluido el control de la longitud y el estilo del resumen.

Disponible en estas regiones

  • Medio Oeste de EE. UU. (Chicago)

Características clave

  • El modelo tiene 52 mil millones de parámetros.
  • La petición de datos y la respuesta del usuario pueden ser de hasta 4.096 tokens para cada ejecución.
  • Puede ajustar este modelo con su juego de datos.

Cluster de IA dedicado para el modelo

En la lista de regiones anterior, los modelos de regiones que no están marcados con (solo clúster de IA dedicada) tienen opciones de clúster de IA dedicado y bajo demanda. Para la opción bajo demanda, no necesita clusters y puede acceder al modelo en el patio de juegos de la consola o a través de la API.

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.

Modelo base Cluster de Ajuste Cluster de alojamiento Información de página de asignación de precios Aumento de límite de cluster de solicitud
  • Nombre de modelo: Cohere Command (52B)
  • Nombre del modelo de OCI: cohere.command (en desuso)
  • Tamaño de unidad: Large Cohere
  • Unidades necesarias: 2
  • Tamaño de unidad: Large Cohere
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Large Cohere - Dedicated
  • Por Hosting, Multiplicar el Precio Unitario: x1
  • Para el ajuste, multiplique el precio unitario: x2
  • Nombre de límite: dedicated-unit-large-cohere-count
  • Para el alojamiento, solicite un aumento del límite en: 1
  • Para el ajuste, solicite un aumento del límite en: 2

Fechas de liberación y baja

Modelo Fecha de liberación Fecha de baja bajo demanda Fecha de baja en modo dedicado
cohere.command 2.024-2-7 2.024-10-2 2.025-8-7
Importante

Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.

Parámetros de Modelo de Generación

Al utilizar los modelos de generación, puede variar la salida cambiando los siguientes parámetros.

Máximo de tokens de salida

Número máximo de tokens que desee que el modelo genere para cada respuesta. Estimar cuatro caracteres por token.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor más alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modelos command y -1 para los modelos Llama, lo que significa que los modelos deben considerar todos los tokens y no utilizar este método.

p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

Secuencias de parada

Secuencia de caracteres, como una palabra, una frase, una nueva línea (\n) o un punto, que indica al modelo cuándo parar la salida generada. Si tiene más de una secuencia de parada, el modelo se detiene cuando alcanza cualquiera de esas secuencias.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Mostrar probabilidades

Cada vez en que se va a generar un nuevo token, se asigna un número entre -15 y 0 a todos los tokens, donde es más probable que a los tokens con números mas altos sigan al token actual. Por ejemplo, es más probable que la palabra favorito vaya seguida de la palabra alimento o libro en lugar de la palabra zebra. Este parámetro solo está disponible para los modelos cohere.

Parámetros de Modelo de Resumen

Al utilizar un modelo de resumen alojado en el patio de recreo, puede obtener una salida diferente cambiando los siguientes parámetros.

Longitud

Longitud aproximada del resumen. Puede seleccionar corto, medio o largo. Los resúmenes cortos son aproximadamente de hasta dos oraciones de largo, los resúmenes medios son entre tres y cinco oraciones, y los resúmenes largos pueden tener seis o más oraciones. Para el valor Automático, el modelo selecciona una longitud basada en el tamaño de entrada.

Formato

Si se debe mostrar el resumen en un párrafo de formato libre o en viñetas. Para el valor Automático, el modelo selecciona el mejor formato en función del texto de entrada.

Extractividad

Cuánto reutilizar la entrada en el resumen. Los resúmenes con alta extractividad tienden a usar frases textuales, y los resúmenes con baja extractividad tienden a parafrasear.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Para resumir un texto, comience con la temperatura establecida en 0. Si no necesita resultados aleatorios, le recomendamos un valor de temperatura de 0,2. Utilice un valor superior si, por ejemplo, tiene previsto seleccionar varios resúmenes posteriormente. Sin embargo, no use una temperatura alta para el resumen porque una temperatura alta alienta al modelo a producir texto creativo, que también podría incluir alucinaciones e información objetivamente incorrecta.
Comando adicional

Otras opciones de resumen, como estilo o enfoque. Escriba uno o más comandos adicionales en un lenguaje natural como instrucciones para el modelo, por ejemplo, "enfocarse en las fechas", "escribir en un estilo conversacional" o "finalizar el currículum con el resumen final".