Comando R+ Cohere (Obsoleto)

O modelo Command R+ é otimizado para tarefas complexas, oferece compreensão avançada de linguagem, maior capacidade e respostas com mais nuances do que cohere.command-r-16k. Também ideal para resposta a perguntas, análise de sentimentos e recuperação de informações.

Disponível nestas regiões

  • Leste do Brasil (São Paulo)
  • Centro da Alemanha (Frankfurt)
  • Sul do Reino Unido (Londres)
  • Centro-Oeste dos EUA (Chicago)

Principais Recursos

  • Para inferência dedicada, crie um cluster de IA dedicado e um ponto final e hospede o modelo no cluster.
  • Tamanho máximo do prompt + resposta: 16.000 tokens para cada execução.
  • Para inferência sob demanda, o tamanho da resposta é limitado a 4.000 tokens para cada execução.
  • Para o modo dedicado, o tamanho da resposta não é limitado e o tamanho do contexto é de 16.000 tokens.
  • Otimizado para tarefas complexas, oferece compreensão avançada de linguagem, maior capacidade e respostas mais diferenciadas do que cohere.command-r-16k. Também ideal para resposta a perguntas, análise de sentimentos e recuperação de informações.

Command R Comparado com R+

  • Tamanho e Desempenho do Modelo: Command R é um modelo de linguagem de escala menor que Command R+. Embora o Command R ofereça respostas de alta qualidade, as respostas podem não ter o mesmo nível de sofisticação e profundidade das respostas do Command R+. O Command R+ é um modelo maior, resultando em desempenho aprimorado e entendimentos mais sofisticados.
  • Casos de uso: Command R é adequado para vários aplicativos, incluindo geração de texto, resumo, tradução e classificação baseada em texto. É uma escolha ideal para criar agentes de IA de conversação e aplicações baseadas em chat. O Command R+, por outro lado, foi projetado para tarefas de linguagem mais complexas que exigem compreensão e nuance mais profundas, como geração de texto, resposta a perguntas, análise de sentimentos e recuperação de informações.
  • Capacidade e Escalabilidade: O Command R pode tratar um número moderado de usuários simultâneos em comparação com o Command R+. O Command R+, no entanto, foi projetado para lidar com um volume maior de solicitações e oferecer suporte a casos de uso mais complexos, o que pode resultar em preços mais altos por causa de sua maior capacidade e desempenho.

Em resumo, o Command R é uma excelente escolha para quem procura uma opção mais acessível e flexível para tarefas linguísticas gerais. Por outro lado, o Command R+ foi projetado para usuários avançados que exigem compreensão avançada da linguagem, maior capacidade e respostas mais diferenciadas. A escolha entre os dois dependerá dos requisitos específicos e do orçamento do seu aplicativo.

Cluster de IA Dedicado para o Modelo

Na lista de regiões anterior, os modelos em regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA sob demanda e dedicadas. Para a opção sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Cohere Command R+
  • Nome do Modelo do OCI: cohere.command-r-plus (obsoleto)
Não disponível para ajuste fino
  • Tamanho da Unidade: Large Cohere V2_2
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x2
  • Nome do Limite: dedicated-unit-large-cohere-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 2
Dica

  • Se você não tiver limites de cluster suficientes em sua tenancy para hospedar o modelo Cohere Command R+ (obsoleto) em um cluster de IA dedicado, solicite que o limite dedicated-unit-large-cohere-count aumente em 2.

  • Revise os benchmarks de desempenho do cluster do Cohere Command R+ para diferentes casos de uso.

Datas de Liberação e Baixa

Modelo Data de Liberação Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
cohere.command-r-plus 2,024-6-18 2,025-1-16 2,025-8-7
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Substituição de preâmbulo

Um contexto inicial ou mensagem de orientação para uma modelo de chat. Quando você não dá um preâmbulo a uma modelo de bate-papo, o preâmbulo padrão para essa modelo é usado. Você pode designar um preâmbulo no parâmetro Substituição de preâmbulo para os modelos. O preâmbulo padrão para a família Cohere é:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

A substituição do preâmbulo padrão é opcional. Quando especificado, a substituição de preâmbulo substitui o preâmbulo Cohere padrão. Ao adicionar um preâmbulo, para obter melhores resultados, forneça o contexto do modelo, as instruções e um estilo de conversa.

Dica

Para modelos de chat sem o parâmetro de substituição de preâmbulo, você pode incluir um preâmbulo na conversa de chat e solicitar diretamente que o modelo responda de uma determinada maneira.
Modo de Segurança
Adiciona uma instrução de segurança para o modelo usar ao gerar respostas. As opções são:
  • Contextual: (Padrão) Coloca menos restrições na saída. Mantém as principais proteções com o objetivo de rejeitar sugestões prejudiciais ou ilegais, mas permite palavrões e algum conteúdo tóxico, conteúdo sexualmente explícito e violento e conteúdo que contém informações médicas, financeiras ou legais. O modo contextual é adequado para entretenimento, uso criativo ou acadêmico.
  • Rigoroso: Tem como objetivo evitar tópicos sensíveis, como atos violentos ou sexuais e palavrões. Este modo visa proporcionar uma experiência mais segura, proibindo respostas ou recomendações que considere inadequadas. O modo estrito é adequado para uso corporativo, como para comunicações corporativas e atendimento ao cliente.
  • Desativado: nenhum modo de segurança é aplicado.
Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos Cohere Command e -1 para os modelos Meta Llama, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Para os modelos da família Meta Llama, essa penalidade pode ser positiva ou negativa. Os números positivos incentivam o modelo a usar novos tokens e os números negativos incentivam o modelo a repetir os tokens. Defina como 0 para desativar.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.