Cohere Embed English Light 3

O modelo cohere.embed-english-light-v3.0 transforma cada frase, sentença ou parágrafo que você insere em uma matriz.

Você pode usar os modelos de incorporação para encontrar similaridade em frases semelhantes em contexto ou categoria. As incorporações são normalmente armazenadas em um banco de dados vetorial. As incorporações são usadas principalmente para pesquisas semânticas em que a função de pesquisa se concentra no significado do texto que está pesquisando, em vez de encontrar resultados com base em palavras-chave.

Disponível nesta região

  • Centro-Oeste dos EUA (Chicago)

Principais Recursos

  • Use os modelos Cohere Embed English para gerar incorporações de texto a partir de documentos em inglês.
  • Os modelos leves são menores e mais rápidos que os modelos originais.
  • O modelo cria um vetor 384-dimensional para cada incorporação.
  • No máximo 96 frases por execução.
  • Máximo de 512 tokens para cada entrada.

Modo sob Demanda

Esse modelo está disponível sob demanda em regiões não listadas como (somente cluster de IA dedicado). Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
Cohere Embed English Light 3 cohere.embed-english-light-v3.0 Embed Cohere
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Ajuste de Limite de Controle Dinâmico para Modo Sob Demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Esse ajuste depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento do ajuste.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido ao ajuste do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.

Cluster de IA Dedicado para o Modelo

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: Cohere Embed English Light 3
  • Nome do Modelo do OCI: cohere.embed-english-light-v3.0
Não disponível para ajuste fino
  • Tamanho da Unidade: Embed Cohere
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: Embed Cohere - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x1
  • Nome do Limite: dedicated-unit-embed-cohere-count
  • Para Hospedagem, Solicitar Aumento do Limite por: 1
Dica

  • O modelo Cohere Embed English Light 3 tem opções de cluster de IA dedicadas e sob demanda. Para o modo sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API.

  • Se você não tiver limites de cluster suficientes em sua tenancy para hospedar um modelo Incorporado em um cluster de IA dedicado, solicite o limite dedicated-unit-embed-cohere-count para aumentar em 1.

Regras de Ponto Final para Clusters

  • Um cluster de IA dedicado pode conter até 50 pontos finais.
  • Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
  • Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
Tamanho da Unidade do Cluster de Hospedagem Regras de Ponto Final
Embed Cohere
  • Modelo base: Para executar o modelo cohere.embed-english-light-v3.0 ⁇ em vários pontos finais, crie quantos pontos finais forem necessários em um cluster Embed Cohere (tamanho unitário).
  • Custom model (Modelo personalizado): não é possível ajustar cohere.embed-english-light-v3.0; portanto, não é possível criar e hospedar modelos personalizados criados nessa base.
Dica

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Cohere Embed English Light 3 para diferentes casos de uso.

Datas de Liberação e Baixa

Modelo Data de Liberação Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
cohere.embed-english-light-v3.0 2,024-2-7 2,026-1-22 2,026-1-22
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Dados de Entrada para Incorporações de Texto

Os dados de entrada para criação de incorporações de texto têm os seguintes requisitos:

  • Você pode adicionar frases, frases ou parágrafos para incorporações de uma frase por vez ou fazendo upload de um arquivo.
  • São permitidos somente arquivos com uma extensão .txt.
  • Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
  • São permitidas no máximo 96 entradas para cada execução.
  • Na Console, cada entrada deve ter menos de 512 tokens para os modelos somente de texto.
  • Se uma entrada for muito longa, selecione se deseja cortar o início ou o final do texto para caber no limite do token definindo o parâmetro Truncar como Iniciar ou Final. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.
  • Para os modelos de texto e imagem, você pode ter arquivos e entradas que somam até 128.000 tokens.
  • Para os modelos de incorporação de texto e imagem, como Cohere Embed English Image V3, você pode adicionar texto ou adicionar apenas uma imagem. Para a imagem, você pode usar a API. A entrada da imagem não está disponível na Console. Para API, insira uma imagem codificada em base64 em cada execução. Por exemplo, uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.

Saiba mais sobre Criação de incorporações de texto na OCI Generative AI.

Incorporando Parâmetro de Modelo

Ao usar os modelos de incorporação, você pode obter uma saída diferente alterando o parâmetro a seguir.

Truncar

Se os tokens de início ou de fim em uma sentença serão truncados, quando essa sentença exceder o número máximo de tokens permitidos. Por exemplo, uma sentença tem 516 tokens, mas o tamanho máximo do token é 512. Se você optar por truncar o final, os últimos 4 tokens dessa instrução serão cortados.