Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0) é um modelo de incorporação multimodal que gera incorporações a partir de entrada de texto e imagem. A entrada da imagem está disponível somente por meio da API.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Acessar este Modelo
As tintas de API listam os pontos finais para todas as regiões comerciais, soberanas e governamentais suportadas.
Principais Recursos
- Limites de entrada:
- Console: Até 96 entradas de texto por execução, com cada entrada de texto em 512 tokens
- SDK e API: Até 128.000 tokens de entrada totais por execução
- Modo de entrada:
- Insira texto ou imagem, mas não ambos
- Para incorporações de imagem, somente uma imagem é permitida
- A entrada da imagem está disponível somente por meio da API
- Entrada de imagem (Disponível apenas por meio da API)
- Requer uma imagem codificada em base64
- Uma imagem 512 x 512 é sobre 1.610 tokens
- Suporte ao idioma:
- Texto: Inglês e multilíngue
- Imagem: Somente em inglês
Modo sob Demanda
O modo sob demanda é pay-as-you-go e é útil para experimentação, prova de conceito e avaliação de modelo. Na página de preços, esse modelo é listado como:
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
Alteração do limite de limitação dinâmica para o modo sob demanda
A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo. Devido à limitação dinâmica, os limites de taxa não são documentados e podem mudar para atender à demanda em todo o sistema.
Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.
Cluster de IA Dedicado para o Modelo
Para usar esse modelo com um cluster de IA dedicado, crie um ponto de extremidade para o modelo em uma região suportada.
| Modelo Base | Cluster de Ajuste | Cluster de Hosts | Informações da Página de Preços | Aumento do Limite do Cluster de Solicitações |
|---|---|---|---|---|
|
Não disponível para ajuste fino |
|
|
|
Se você não tiver capacidade de hospedagem suficiente, solicite um aumento para o limite dedicated-unit-embed-cohere-count.
Regras de Ponto Final para Clusters
- Um cluster de IA dedicado pode conter até 50 pontos finais.
- Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
- Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
| Tamanho da Unidade do Cluster de Hospedagem | Regras de Ponto Final |
|---|---|
| Embed Cohere |
|
-
Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
-
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite,
endpoint-per-dedicated-unit-count. Consulte Criando uma Solicitação de Aumento de Limite e Limites do Serviço para IA Generativa.
Benchmarks de Desempenho do Cluster
Revise os benchmarks de desempenho do cluster do Cohere Embed 4 para diferentes casos de uso.
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):
Dados de Entrada para Incorporações de Texto
Os dados de entrada para criação de incorporações de texto têm os seguintes requisitos:
- Você pode adicionar frases, frases ou parágrafos para incorporações de uma frase por vez ou fazendo upload de um arquivo.
- São permitidos somente arquivos com uma extensão
.txt. - Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
- São permitidas no máximo 96 entradas para cada execução.
- Na Console, cada entrada deve ter menos de 512 tokens para os modelos somente de texto.
- Se uma entrada for muito longa, selecione se deseja cortar o início ou o final do texto para caber no limite do token definindo o parâmetro Truncar como Iniciar ou Final. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.
- Para os modelos de texto e imagem, você pode ter arquivos e entradas que somam até 128.000 tokens.
- Para os modelos de incorporação de texto e imagem, como Cohere Embed English Image V3, você pode adicionar texto ou adicionar apenas uma imagem. Para a imagem, você pode usar a API. A entrada da imagem não está disponível na Console. Para API, insira uma imagem codificada em base64 em cada execução. Por exemplo, uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.
Saiba mais sobre Criação de incorporações de texto na OCI Generative AI.
Migrando da Incorporação 3 para a Incorporação 4
Se você estiver migrando de Incorporar 3 para Incorporar 4 e alterando o tamanho do vetor de 1.024 para 1.536 dimensões, use um novo índice para ajudar a evitar tempo de inatividade.
-
Criar um novo índice vetorial
Crie um novo índice ou coleção no seu banco de dados vetorial configurado para 1.536 dimensões.
-
Incorporar novamente os dados
Reprocesse seus documentos de origem com o
cohere.embed-v4.0e definaoutput_dimension=1536. Armazene as novas incorporações no novo índice. -
Atualizar lógica de consulta
Atualize o aplicativo para usar a opção Incorporar 4 para consultas de pesquisa recebidas.
Usar:input_type="search_query"para consultasinput_type="search_document"para documentos armazenados
-
Cortar
Após o novo índice ser totalmente preenchido e testado, atualize seu aplicativo para usar o novo índice de 1.536 dimensões.