Cohere Embed Multilingual 3
O modelo cohere.embed-multilingual-v3.0 transforma cada frase, sentença ou parágrafo que você insere em uma matriz.
Você pode usar os modelos de incorporação para encontrar similaridade em frases semelhantes em contexto ou categoria. As incorporações são normalmente armazenadas em um banco de dados vetorial. As incorporações são usadas principalmente para pesquisas semânticas em que a função de pesquisa se concentra no significado do texto que está pesquisando, em vez de encontrar resultados com base em palavras-chave.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Acessar este Modelo
Os pontos finais de API para todas as regiões comerciais, soberanas e governamentais suportadas são listados nos links API de Gerenciamento e API de Inferência. Você só pode acessar cada modelo por meio de suas regiões suportadas.
Principais Recursos
- Funciona em inglês e multilíngue.
- O modelo cria um vetor de 1.024 dimensões para cada incorporação.
- No máximo 96 frases por execução.
- Máximo de 512 tokens para cada entrada.
- Melhor para casos de uso quando:
- Em vez de inglês, os documentos são escritos em um dos idiomas suportados.
- Os documentos são escritos em mais de um idioma e esses idiomas são um dos idiomas suportados.
Modo sob Demanda
Consulte a tabela a seguir para obter o nome do produto sob demanda deste modelo na página de preços.
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| Cohere Embed Multilingual 3 | cohere.embed-multilingual-v3.0 |
Embed Cohere |
-
Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
- Baixa barreira para começar a usar IA generativa.
- Ótimo para experimentação, prova de conceito e avaliação de modelo.
- Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Alteração do limite de limitação dinâmica para o modo sob demanda
A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.
Essa alteração depende dos seguintes fatores:
- O throughput máximo atual suportado pelo modelo de destino.
- Qualquer capacidade do sistema não utilizada no momento da alteração.
- O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.
Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.
Devido à alteração do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.
Cluster de IA Dedicado para o Modelo
Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.
| Modelo Base | Cluster de Ajuste | Cluster de Hosts | Informações da Página de Preços | Aumento do Limite do Cluster de Solicitações |
|---|---|---|---|---|
|
Não disponível para ajuste fino |
|
|
|
Se você não tiver limites de cluster suficientes em sua tenancy para hospedar um modelo Incorporado em um cluster de IA dedicado, solicite o limite dedicated-unit-embed-cohere-count para aumentar em 1.
Regras de Ponto Final para Clusters
- Um cluster de IA dedicado pode conter até 50 pontos finais.
- Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
- Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.
| Tamanho da Unidade do Cluster de Hospedagem | Regras de Ponto Final |
|---|---|
| Embed Cohere |
|
-
Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
-
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite,
endpoint-per-dedicated-unit-count. Consulte Solicitando um Aumento do Limite de Serviço e Limites de Serviço do Serviço Generative AI.
Benchmarks de Desempenho do Cluster
Revise os benchmarks de desempenho do cluster do Cohere Embed Multilingual 3 para diferentes casos de uso.
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):
Dados de Entrada para Incorporações de Texto
Os dados de entrada para criação de incorporações de texto têm os seguintes requisitos:
- Você pode adicionar frases, frases ou parágrafos para incorporações de uma frase por vez ou fazendo upload de um arquivo.
- São permitidos somente arquivos com uma extensão
.txt. - Se você usar um arquivo de entrada, cada sentença, frase ou parágrafo de entrada no arquivo deverá ser separado por um caractere de nova linha.
- São permitidas no máximo 96 entradas para cada execução.
- Na Console, cada entrada deve ter menos de 512 tokens para os modelos somente de texto.
- Se uma entrada for muito longa, selecione se deseja cortar o início ou o final do texto para caber no limite do token definindo o parâmetro Truncar como Iniciar ou Final. Se uma entrada exceder o limite de token 512 e o parâmetro Truncate for definido como None, você receberá uma mensagem de erro.
- Para os modelos de texto e imagem, você pode ter arquivos e entradas que somam até 128.000 tokens.
- Para os modelos de incorporação de texto e imagem, como Cohere Embed English Image V3, você pode adicionar texto ou adicionar apenas uma imagem. Para a imagem, você pode usar a API. A entrada da imagem não está disponível na Console. Para API, insira uma imagem codificada em base64 em cada execução. Por exemplo, uma imagem de 512 x 512 é convertida em cerca de 1.610 tokens.
Saiba mais sobre Criação de incorporações de texto na OCI Generative AI.
Incorporando Parâmetro de Modelo
Ao usar os modelos de incorporação, você pode obter uma saída diferente alterando o parâmetro a seguir.
- Truncar
-
Se os tokens de início ou de fim em uma sentença serão truncados, quando essa sentença exceder o número máximo de tokens permitidos. Por exemplo, uma sentença tem 516 tokens, mas o tamanho máximo do token é 512. Se você optar por truncar o final, os últimos 4 tokens dessa instrução serão cortados.