Phare de Cohere Command

Le modèle cohere.command-light est en phase d'abandon.

Important

Le modèle cohere.command-light pris en charge pour le mode de service à la demande est désormais retiré et ce modèle est en phase d'abandon pour le mode de service dédié. Si vous hébergez cohere.command-light sur un cluster d'IA dédié (mode de service dédié), vous pouvez continuer à utiliser cette réplique de modèle hébergée avec l'API de génération et dans le playground de test jusqu'à la mise hors service du modèle cohere.command-light pour le mode de service dédié. Ce modèle, lorsqu'il est hébergé sur un cluster d'IA dédié, est uniquement disponible dans le Midwest des Etats-Unis (Chicago). Reportez-vous à la section Mise hors service des modèles pour connaître les dates et définitions de sortie. Nous vous recommandons d'utiliser les modèles de discussion qui offrent les mêmes fonctionnalités de génération de texte, y compris le contrôle de la longueur et du style du résumé.

Disponible dans ces régions

  • Midwest des Etats-Unis (Chicago)

Principales fonctionnalités

  • Le modèle a 6 milliards de paramètres.
  • L'invite utilisateur et la réponse peuvent comporter jusqu'à 4 096 sèmes pour chaque exécution.
  • Vous pouvez affiner ce modèle avec votre ensemble de données.

Cluster d'IA dédié pour le modèle

Dans la liste des régions précédente, les modèles des régions qui ne sont pas marquées par (cluster d'IA dédié uniquement) disposent d'options de cluster d'IA à la demande et dédiées. Pour l'option à la demande, vous n'avez pas besoin de clusters et vous pouvez accéder au modèle dans le playground de test de la console ou via l'API.

Pour atteindre un modèle via un cluster d'IA dédié dans une région répertoriée, vous devez créer une adresse pour ce modèle sur un cluster d'IA dédié. Pour connaître la taille d'unité de cluster correspondant à ce modèle, reportez-vous au tableau suivant.

Modèle de base Cluster de réglage fin Cluster d'hébergement Informations sur la page de tarification Demander une augmentation de limite de cluster
  • Nom du modèle : Cohere Command Light (6B)
  • Nom de modèle OCI : cohere.command-light (en phase d'abandon)
  • Taille d'unité : Small Cohere
  • Unités obligatoires : 2
  • Taille d'unité : Small Cohere
  • Unités obligatoires : 1
  • Nom du produit de la page de tarification : Small Cohere - Dedicated
  • Pour l'Hébergement, Multiplier le Prix Unitaire : x1
  • Pour le réglage fin, multipliez le prix unitaire : x2
  • Nom de la limite : dedicated-unit-small-cohere-count
  • Pour l'hébergement, demandez une augmentation de limite de : 1
  • Pour le réglage fin, augmentez la limite des demandes de : 2

Dates de déblocage et de sortie

Modèle Date de lancement Date de sortie à la demande Date de retrait du mode dédié
cohere.command 2 024-2-7 2 024-10-2 2 025-8-7
Important

Pour obtenir la liste de toutes les lignes de temps du modèle et des détails de sortie, voir Mettre hors service les modèles.

Paramètres de modèle de génération

Lorsque vous utilisez les modèles de génération, vous pouvez modifier la sortie en modifiant les paramètres suivants.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton.

Température

Niveau de randomité utilisé pour générer le texte de sortie.

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons top k les plus probables. Une valeur supérieure pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut de k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.

Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Séquences d'arrêt

Séquence de caractères, comme un mot, une expression, une ligne (\n) ou un point. Indique au modèle quand arrêter la sortie générée. Si vous disposez de plusieurs séquences d'arrêt, le modèle s'arrête lorsqu'il atteint l'une d'elles.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce dernier apparaît fréquemment. Les pénalités élevées encouragent moins de jetons répétés et produisent un résultat plus aléatoire.

Pénalité de présence

Pénalité affectée à chaque jeton lorsqu'il apparaît dans la sortie pour encourager les sorties avec des jetons qui n'ont pas été utilisés.

Afficher les probabilités

Chaque fois qu'un sème doit être généré, un nombre compris entre -15 et 0 est affecté à tous les sèmes. Les sèmes ayant un nombre plus élevé sont plus susceptibles de suivre le sème en cours. Par exemple, le mot favori est plus susceptible d'être suivi du mot food ou book que du mot zebra. Ce paramètre est disponible uniquement pour les modèles cohere.