Comando Cohere (52B)

O modelo cohere.command está obsoleto.

Importante

O modelo cohere.command suportado para o modo de serviço sob demanda agora é descontinuado e esse modelo está obsoleto para o modo de serviço dedicado. Se você estiver hospedando o cohere.command em um cluster de IA dedicado (modo de serviço dedicado), poderá continuar usando essa réplica de modelo hospedado com a API de resumo e geração e no playground até que o modelo cohere.command se retire do modo de serviço dedicado. Esse modelo, quando hospedado em um cluster de IA dedicado, só está disponível no US Midwest (Chicago). Consulte Desativando os Modelos para obter datas e definições de baixa. Recomendamos que você use os modelos de chat que oferecem os mesmos recursos de resumo e geração de texto, incluindo controle sobre o tamanho e o estilo do resumo.

Disponível nestas regiões

  • Centro-Oeste dos EUA (Chicago)

Principais Recursos

  • O modelo tem 52 bilhões de parâmetros.
  • O prompt e a resposta do usuário podem ter até 4.096 tokens para cada execução.
  • Você pode ajustar esse modelo com seu conjunto de dados.

Cluster de IA Dedicado para o Modelo

Na lista de regiões anterior, os modelos em regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA sob demanda e dedicadas. Para a opção sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Cohere Command (52B)
  • Nome do Modelo do OCI: cohere.command (obsoleto)
  • Tamanho da Unidade: Large Cohere
  • Unidades Obrigatórias: 2
  • Tamanho da Unidade: Large Cohere
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x1
  • Para Ajuste Fino, Multiplique o Preço Unitário: x2
  • Nome do Limite: dedicated-unit-large-cohere-count
  • Para Hospedagem, Solicitar Aumento do Limite por: 1
  • Para ajuste fino, solicite aumento de limite por: 2

Datas de Liberação e Baixa

Modelo Data de Liberação Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
cohere.command 2,024-2-7 2,024-10-2 2,025-8-7
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros do Modelo de Geração

Ao usar os modelos de geração, você pode variar a saída alterando os parâmetros a seguir.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor mais alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos command e -1 para os modelos Llama, o que significa que os modelos devem considerar todos os tokens e não usar esse método.

Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Sequências de parada

Uma sequência de caracteres — como uma palavra, uma frase, um (\n) de nova linha ou um período — que diz ao modelo quando interromper a saída gerada. Se houver mais de uma sequência de parada, o modelo será interrompido quando atingir qualquer uma dessas sequências.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Mostrar probabilidades

Toda vez que um novo token deve ser gerado, um número entre -15 e 0 é designado a todos os tokens, em que os tokens com números mais altos têm mais probabilidade de seguir o token atual. Por exemplo, é mais provável que a palavra favorito seja seguida pela palavra alimento ou livro em vez da palavra zebra. Esse parâmetro só está disponível para os modelos cohere.

Parâmetros do Modelo de Sumarização

Ao usar um modelo de sumariação hospedado no playground, você pode obter uma saída diferente alterando os parâmetros a seguir.

Tamanho

O tamanho aproximado do resumo. Você pode selecionar curto, médio ou longo. Resumos curtos são aproximadamente até duas frases longas, resumos médios são entre três e cinco frases, e resumos longos podem ter seis ou mais frases. Para o valor Automático, o modelo escolhe um comprimento com base no tamanho da entrada.

Formato

Se o resumo deve ser exibido em um parágrafo de formato livre ou em marcadores. Para o valor Automático, o modelo escolhe o melhor formato com base no texto de entrada.

Capacidade de Extração

Quanto reutilizar da entrada no resumo. Resumos com alta extratividade tendem a usar frases textuais, e resumos com baixa extratividade tendem a parafrasear.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Para resumir um texto, comece com a temperatura definida como 0. Se você não precisar de resultados aleatórios, recomendamos um valor de temperatura de 0,2. Use um valor mais alto se, por exemplo, você planeja selecionar vários resumos posteriormente. No entanto, não use uma alta temperatura para sumarização porque uma alta temperatura incentiva o modelo a produzir texto criativo, que também pode incluir alucinações e informações factualmente incorretas.
Comando adicional

Outras opções de sumarização, como estilo ou foco. Escreva um ou mais comandos adicionais em uma linguagem natural como instruções para o modelo, por exemplo, "focar em datas", ou "escrever em um estilo de conversação", ou "encerrar o currículo com RESUMO FINAL".