Comando Cohere (52B)
El modelo cohere.command
está en desuso.
El modelo
cohere.command
soportado para el modo de servicio bajo demanda ahora se ha dado de baja y este modelo está en desuso para el modo de servicio dedicado. Si aloja cohere.command
en un cluster de IA dedicado (modo de servicio dedicado), puede seguir utilizando esta réplica de modelo alojado con la API de generación y resumen y en el patio de recreo hasta que el modelo cohere.command
se retire para el modo de servicio dedicado. Este modelo, cuando se aloja en un cluster de IA dedicado, solo está disponible en US Midwest (Chicago). Consulte Baja de los modelos para conocer las fechas y definiciones de baja. Le recomendamos que utilice los modelos de chat en su lugar, que ofrecen las mismas capacidades de generación de texto y resumen, incluido el control de la longitud y el estilo del resumen.Disponible en estas regiones
- Medio Oeste de EE. UU. (Chicago)
Características clave
- El modelo tiene 52 mil millones de parámetros.
- La petición de datos y la respuesta del usuario pueden ser de hasta 4.096 tokens para cada ejecución.
- Puede ajustar este modelo con su juego de datos.
Cluster de IA dedicado para el modelo
En la lista de regiones anterior, los modelos de regiones que no están marcados con (solo clúster de IA dedicada) tienen opciones de clúster de IA dedicado y bajo demanda. Para la opción bajo demanda, no necesita clusters y puede acceder al modelo en el patio de juegos de la consola o a través de la API.
Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.
Modelo base | Cluster de Ajuste | Cluster de alojamiento | Información de página de asignación de precios | Aumento de límite de cluster de solicitud |
---|---|---|---|---|
|
|
|
|
|
Fechas de liberación y baja
Modelo | Fecha de liberación | Fecha de baja bajo demanda | Fecha de baja en modo dedicado |
---|---|---|---|
cohere.command
|
2.024-2-7 | 2.024-10-2 | 2.025-8-7 |
Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.
Parámetros de Modelo de Generación
Al utilizar los modelos de generación, puede variar la salida cambiando los siguientes parámetros.
- Máximo de tokens de salida
-
Número máximo de tokens que desee que el modelo genere para cada respuesta. Estimar cuatro caracteres por token.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida.
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - k principales
-
Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables
top k
. Un valor más alto parak
genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modeloscommand
y -1 para los modelosLlama
, lo que significa que los modelos deben considerar todos los tokens y no utilizar este método. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
p
un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definap
en 1 para considerar todos los tokens. - Secuencias de parada
-
Secuencia de caracteres, como una palabra, una frase, una nueva línea
(\n)
o un punto, que indica al modelo cuándo parar la salida generada. Si tiene más de una secuencia de parada, el modelo se detiene cuando alcanza cualquiera de esas secuencias. - Penalización de frecuencia
-
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.
- Mostrar probabilidades
-
Cada vez en que se va a generar un nuevo token, se asigna un número entre -15 y 0 a todos los tokens, donde es más probable que a los tokens con números mas altos sigan al token actual. Por ejemplo, es más probable que la palabra favorito vaya seguida de la palabra alimento o libro en lugar de la palabra zebra. Este parámetro solo está disponible para los modelos
cohere
.
Parámetros de Modelo de Resumen
Al utilizar un modelo de resumen alojado en el patio de recreo, puede obtener una salida diferente cambiando los siguientes parámetros.
- Longitud
-
Longitud aproximada del resumen. Puede seleccionar corto, medio o largo. Los resúmenes cortos son aproximadamente de hasta dos oraciones de largo, los resúmenes medios son entre tres y cinco oraciones, y los resúmenes largos pueden tener seis o más oraciones. Para el valor Automático, el modelo selecciona una longitud basada en el tamaño de entrada.
- Formato
-
Si se debe mostrar el resumen en un párrafo de formato libre o en viñetas. Para el valor Automático, el modelo selecciona el mejor formato en función del texto de entrada.
- Extractividad
-
Cuánto reutilizar la entrada en el resumen. Los resúmenes con alta extractividad tienden a usar frases textuales, y los resúmenes con baja extractividad tienden a parafrasear.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida.
Consejo
Para resumir un texto, comience con la temperatura establecida en 0. Si no necesita resultados aleatorios, le recomendamos un valor de temperatura de 0,2. Utilice un valor superior si, por ejemplo, tiene previsto seleccionar varios resúmenes posteriormente. Sin embargo, no use una temperatura alta para el resumen porque una temperatura alta alienta al modelo a producir texto creativo, que también podría incluir alucinaciones e información objetivamente incorrecta. - Comando adicional
-
Otras opciones de resumen, como estilo o enfoque. Escriba uno o más comandos adicionales en un lenguaje natural como instrucciones para el modelo, por ejemplo, "enfocarse en las fechas", "escribir en un estilo conversacional" o "finalizar el currículum con el resumen final".