Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) é um modelo de incorporação multimodal que gera incorporações a partir de entrada de texto e imagem. A entrada da imagem está disponível somente por meio da API.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Principais Recursos

  1. Limites de entrada:
    • Console: Até 96 entradas de texto por execução, com cada entrada de texto em 512 tokens
    • SDK e API: Até 128.000 tokens de entrada totais por execução
  2. Modo de entrada:
    • Insira texto ou imagem, mas não ambos
    • Para incorporações de imagem, somente uma imagem é permitida
    • A entrada da imagem está disponível somente por meio da API
  3. Entrada de imagem (Disponível apenas por meio da API)
    • Requer uma imagem codificada em base64
    • Uma imagem 512 x 512 é sobre 1.610 tokens
  4. Suporte ao idioma:
    • Texto: Inglês e multilíngue
    • Imagem: Somente em inglês

Modo sob Demanda

O modo sob demanda é pay-as-you-go e é útil para experimentação, prova de conceito e avaliação de modelo. Na página de preços, esse modelo é listado como:

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Importante

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo. Devido à limitação dinâmica, os limites de taxa não são documentados e podem mudar para atender à demanda em todo o sistema.

Dica

Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Cluster de IA Dedicado para o Modelo

Para usar esse modelo com um cluster de IA dedicado, crie um ponto de extremidade para o modelo em uma região suportada.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Cohere Embed 4
  • Nome do Modelo do OCI: cohere.embed-v4.0
Não disponível para ajuste fino
  • Tamanho da Unidade: Embed Cohere
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Embed Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x1
  • Nome do Limite: dedicated-unit-embed-cohere-count
  • Para Hospedagem, Solicitar Aumento do Limite por: 1
Dica

Se você não tiver capacidade de hospedagem suficiente, solicite um aumento para o limite dedicated-unit-embed-cohere-count.

Regras de Ponto Final para Clusters

  • Um cluster de IA dedicado pode conter até 50 pontos finais.
  • Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
  • Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem Regras de Ponto Final
Embed Cohere
  • Modelo base: Para executar o modelo cohere.embed-v4.0 ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Embed Cohere (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar cohere.embed-v4.0; portanto, não é possível criar e hospedar modelos personalizados criados nessa base.
Dica

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Cohere Embed 4 para diferentes casos de uso.

Dados de Entrada para Incorporações de Texto

Os dados de entrada para criação de incorporações de texto têm os seguintes requisitos:

  • Você pode adicionar frases, frases ou parágrafos para incorporações de uma frase por vez ou fazendo upload de um arquivo.
  • São permitidos somente arquivos com uma extensão .txt.
  • Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
  • São permitidas no máximo 96 entradas para cada execução.
  • Na Console, cada entrada deve ter menos de 512 tokens para os modelos somente de texto.
  • Se uma entrada for muito longa, selecione se deseja cortar o início ou o final do texto para caber no limite do token definindo o parâmetro Truncar como Iniciar ou Final. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.
  • Para os modelos de texto e imagem, você pode ter arquivos e entradas que somam até 128.000 tokens.
  • Para os modelos de incorporação de texto e imagem, como Cohere Embed English Image V3, você pode adicionar texto ou adicionar apenas uma imagem. Para a imagem, você pode usar a API. A entrada da imagem não está disponível na Console. Para API, insira uma imagem codificada em base64 em cada execução. Por exemplo, uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.

Saiba mais sobre Criação de incorporações de texto na OCI Generative AI.

Migrando da Incorporação 3 para a Incorporação 4

Se você estiver migrando de Incorporar 3 para Incorporar 4 e alterando o tamanho do vetor de 1.024 para 1.536 dimensões, use um novo índice para ajudar a evitar tempo de inatividade.

  1. Criar um novo índice vetorial

    Crie um novo índice ou coleção no seu banco de dados vetorial configurado para 1.536 dimensões.

  2. Incorporar novamente os dados

    Reprocesse seus documentos de origem com o cohere.embed-v4.0 e defina output_dimension=1536. Armazene as novas incorporações no novo índice.

  3. Atualizar lógica de consulta

    Atualize o aplicativo para usar a opção Incorporar 4 para consultas de pesquisa recebidas.

    Usar:
    • input_type="search_query" para consultas
    • input_type="search_document" para documentos armazenados
  4. Cortar

    Após o novo índice ser totalmente preenchido e testado, atualize seu aplicativo para usar o novo índice de 1.536 dimensões.