Cohere Command A Vision

Lançado em julho de 2025, o Cohere Command A Vision (cohere.command-a-vision) é um modelo de linguagem grande multimodal focado na empresa que se destaca na compreensão e interpretação de dados visuais (imagens, gráficos, documentos) juntamente com texto.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Principais Recursos

  • Suporte multimodal: insira texto e imagens e obtenha uma saída de texto. Adequado para tarefas de linguagem de visão focadas na empresa, como análise de documentos e insights de imagem.
    • Na Console, insira uma imagem .png ou .jpg de 5 MB ou menos.
    • Para API, insira uma imagem codificada em base64 em cada execução. Uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.
  • Tamanho do Contexto: 128.000 tokens (Tamanho máximo de prompt + resposta: 128.000 tokens para cada execução)
  • Modelo Base: Criado com base no LLM do Comando A da Cohere.
  • Tamanho do Modelo: O modelo tem 112 bilhões de parâmetros.
  • Eficiência: Otimizado para ser executado em uma área de computação baixa de 2 GPUs.

Consulte a documentação da Cohere para Command A Vision Model.

Pontos Finais da API

Importante

O modelo Cohere Command A Vision só é compatível com a versão 2 da API de Chat de IA Generativa da OCI para modelos Cohere. Para obter detalhes sobre a implementação, consulte a API CohereChatRequestV2 e outros pontos finais relacionados que terminam em V2, como CohereChatResponseV2.

Modo sob Demanda

Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
Cohere Command A Vision cohere.command-a-vision Large Cohere
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Essa alteração depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento da alteração.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Cluster de IA Dedicado para o Modelo

Na lista de regiões anterior, os modelos em regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA sob demanda e dedicadas. Para o modo sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Cohere Command A Vision
  • Nome do Modelo do OCI: cohere.command-a-vision
Não disponível para ajuste fino
  • Tamanho da Unidade: LARGE_COHERE_V3
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Large Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x1
  • Nome do Limite: dedicated-unit-large-cohere-count
  • Para Hospedagem, Solicitar Aumento do Limite por: 1
  • Nome do Modelo: Cohere Command A Vision

    (somente UAE East (Dubai))

  • Nome do Modelo do OCI: cohere.command-a-vision
Não disponível para ajuste fino
  • Tamanho da Unidade: SMALL_COHERE_4
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Small Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x4
  • Nome do Limite: dedicated-unit-small-cohere-count
  • Para Hospedagem, Solicitar Aumento de Limite por: 4
Dica

  • Se você não tiver limites de cluster suficientes na tenancy para hospedar o modelo Cohere Command A Vision em um cluster de IA dedicado,
    • Para a região UAE East (Dubai), solicite o limite dedicated-unit-small-cohere-count para aumentar em 4.
    • Para todas as outras regiões, solicite o limite dedicated-unit-large-cohere-count para aumentar em 1.

    Consulte Solicitando um Aumento do Limite de Serviço.

Regras de Ponto Final para Clusters

  • Um cluster de IA dedicado pode conter até 50 pontos finais.
  • Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
  • Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem Regras de Ponto Final
LARGE_COHERE_V3
  • Modelo base: Para executar o modelo cohere.command-a-vision ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster LARGE_COHERE_V3 (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar cohere.command-a-vision; portanto, não é possível criar e hospedar modelos personalizados criados nessa base.
SMALL_COHERE_4

(somente UAE East (Dubai))

  • Modelo base: Para executar o modelo cohere.command-a-vision ⁇ em vários pontos finais no UAE East (Dubai), crie quantos pontos finais forem necessários em um cluster SMALL_COHERE_4 (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar cohere.command-a-vision; portanto, não é possível criar e hospedar modelos personalizados criados nessa base.
Dica

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Substituição de preâmbulo

Um contexto inicial ou mensagem de orientação para uma modelo de chat. Quando você não dá um preâmbulo a uma modelo de bate-papo, o preâmbulo padrão para essa modelo é usado. Você pode designar um preâmbulo no parâmetro Substituição de preâmbulo para os modelos. O preâmbulo padrão para a família Cohere é:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

A substituição do preâmbulo padrão é opcional. Quando especificado, a substituição de preâmbulo substitui o preâmbulo Cohere padrão. Ao adicionar um preâmbulo, para obter melhores resultados, forneça o contexto do modelo, as instruções e um estilo de conversa.

Dica

Para modelos de chat sem o parâmetro de substituição de preâmbulo, você pode incluir um preâmbulo na conversa de chat e solicitar diretamente que o modelo responda de uma determinada maneira.
Modo de Segurança
Adiciona uma instrução de segurança para o modelo usar ao gerar respostas. As opções são:
  • Contextual: (Padrão) Coloca menos restrições na saída. Mantém as principais proteções com o objetivo de rejeitar sugestões prejudiciais ou ilegais, mas permite palavrões e algum conteúdo tóxico, conteúdo sexualmente explícito e violento e conteúdo que contém informações médicas, financeiras ou legais. O modo contextual é adequado para entretenimento, uso criativo ou acadêmico.
  • Rigoroso: Tem como objetivo evitar tópicos sensíveis, como atos violentos ou sexuais e palavrões. Este modo visa proporcionar uma experiência mais segura, proibindo respostas ou recomendações que considere inadequadas. O modo estrito é adequado para uso corporativo, como para comunicações corporativas e atendimento ao cliente.
  • Desativado: nenhum modo de segurança é aplicado.
Temperatura

O nível de aleatoriedade usado para gerar o texto de saída.

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para modelos Cohere Command, o que significa que o modelo deve considerar todos os tokens e não usar esse método.

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Pré-implantado

Um parâmetro que faz o melhor esforço para amostras de tokens deterministicamente. Quando um valor é atribuído a esse parâmetro, o modelo de linguagem grande tem como objetivo retornar o mesmo resultado para solicitações repetidas quando você atribui o mesmo seed e parâmetros para as solicitações.

Os valores permitidos são números inteiros e a atribuição de um valor de seed grande ou pequeno não afeta o resultado. Designar um número para o parâmetro seed é semelhante a marcar a solicitação com um número. O modelo de linguagem grande tem como objetivo gerar o mesmo conjunto de tokens para o mesmo número inteiro em solicitações consecutivas. Esse recurso é especialmente útil para depuração e teste. O parâmetro de teste não tem valor máximo para a API e, na Console, seu valor máximo é 9999. Deixar o valor pré-implantado em branco na Console ou nulo na API desativa esse recurso.

Advertência

O parâmetro seed pode não produzir o mesmo resultado no longo prazo, porque as atualizações de modelo no serviço OCI Generative AI podem invalidar o seed.