Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) é um modelo de incorporação multimodal que gera incorporações de texto, uma imagem ou texto e uma imagem no mesmo payload da API. A entrada da imagem está disponível somente por meio da API.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Acessar este Modelo

Você pode acessar esse modelo por meio de:

Observação

As tintas de API listam os pontos finais para todas as regiões comerciais, soberanas e governamentais suportadas.

Principais Recursos

Incorporações de matryoshka: Suporta dimensões de saída de 256, 512, 1.024 e 1.536. Este recurso não é suportado nos modelos Embed 3.
Limites de entrada:
- Console: Até 96 entradas de texto por execução, com cada entrada de texto em 512 tokens. Esse limite se aplica ao modo sob demanda.
- SDK e API: Até 128.000 tokens de entrada totais por execução.
Dimensões de saída:
- Console:1,536
- API: 1,536 por padrão; suporta 256, 512, 1,024 e 1,536
Modo de entrada:
- API: Suporta somente texto, apenas uma imagem ou várias entradas de texto com uma imagem no mesmo payload.
- Somente uma imagem é permitida por payload.
- A entrada da imagem está disponível somente por meio da API.
Entrada da imagem:
- Requer uma imagem codificada em base64.
- Uma imagem 512 x 512 é sobre 1.610 tokens.
Suporte ao idioma:
- Texto: Inglês e multilíngue
- Imagem: Somente em inglês

Usar Texto e Imagem na API EmbedText

Para incluir uma imagem com texto, use o atributo embedContents no corpo da solicitação EmbedTextDetails para a API EmbedText.

O atributo embedContents é um array e só é suportado para modelos Incorporados 4. Cada item no array é um objeto EmbedContent. Um objeto EmbedContent pode conter conteúdo de texto ou conteúdo de imagem.

Use embedContents quando quiser enviar conteúdo de texto e imagem na mesma solicitação EmbedText. Você pode incluir várias entradas de texto e uma imagem, até o tamanho máximo de entrada.

Os outros parâmetros da API EmbedText permanecem os mesmos.

Importante

O atributo embedContents só é suportado pelos modelos Incorporar 4. Não use embedContents com modelos Embed 3.

Modo sob Demanda

O modo sob demanda é pay-as-you-go e é útil para experimentação, prova de conceito e avaliação de modelo. Na página de preços, esse modelo é listado como:


Nome do Modelo	Nome do Modelo do OCI	Nome do Produto da Página de Precificação
Cohere Cohere Embed 4	`cohere.embed-v4.0`	Embed Cohere

Importante

Alteração do limite de limitação dinâmica para o modo sob demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo. Devido à limitação dinâmica, os limites de taxa não são documentados e podem mudar para atender à demanda em todo o sistema.

Dica

Como os limites de taxa podem mudar, recomendamos implementar uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais da integração ao serviço.

Cluster de IA Dedicado para o Modelo

Para modelos no modo sob demanda, nenhum cluster é necessário. Acesse-os por meio do playground da Console e da API. Para modelos disponíveis no modo dedicado, use pontos finais criados em clusters de IA dedicados. Saiba mais sobre o Modo Dedicado.

Este modelo não está disponível para ajuste fino. Para saber as formas de unidade de hardware, as regiões disponíveis, os limites de serviço, as contagens de unidades de IA e a estimativa de custo de um cluster de IA dedicado que hospeda esse modelo, consulte Formas de Unidade de Hardware por Região.

Formas Genéricas Legadas

Importante

As formas Cohere genéricas legadas estão sendo descontinuadas da IA generativa. Durante o período de desativação, essas formas permanecem disponíveis apenas na API. Se você usar a API, poderá ver as formas genéricas legadas e as novas formas de unidade de hardware até que as formas genéricas legadas sejam removidas do serviço.

Use esta seção somente se você tiver um cluster de IA dedicado que use uma forma Cohere genérica legada ou se usar a API para criar um cluster com uma forma Cohere genérica legada durante o período de baixa. Para novos clusters de IA dedicados, use as formas de unidade de hardware listadas em Formas de Unidade de Hardware por Região.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.


Modelo Base	Cluster de Ajuste	Cluster de Hosts	Informações da Página de Preços	Aumento do Limite do Cluster de Solicitações
Nome do Modelo: Cohere Embed 4 Nome do Modelo do OCI: `cohere.embed-v4.0`	Não disponível para ajuste fino	Tamanho da Unidade: Embed Cohere Unidades Obrigatórias: 1	Nome do produto da página de preços: Embed Cohere - Dedicated Para Hospedagem, Multiplique o Preço Unitário: x1	Nome do Limite: `dedicated-unit-embed-cohere-count` Para Hospedagem, Solicitar Aumento do Limite por: 1

Regras de Ponto Final para Clusters

Um cluster de IA dedicado pode conter até 50 pontos finais.
Use esses pontos finais para criar aliases que todos apontam para o mesmo modelo base ou para a mesma versão de um modelo personalizado, mas não para os dois tipos.
Vários pontos finais para o mesmo modelo facilitam a designação a diferentes usuários ou propósitos.

Dica

Para aumentar o volume de chamadas suportado por um cluster de hospedagem, aumente sua contagem de instâncias editando o cluster de IA dedicado. Consulte Atualizando um Cluster de IA Dedicado.
Para mais de 50 pontos finais por cluster, solicite um aumento para o limite, endpoint-per-dedicated-unit-count. Consulte Criando uma Solicitação de Aumento de Limite e Limites do Serviço para IA Generativa.

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster do Cohere Embed 4 para diferentes casos de uso.

Datas de Lançamento e Baixa do OCI

Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):

Dados de Entrada para Incorporações de Texto

Para incorporações de texto, você pode adicionar frases, frases ou parágrafos. Na Console, você pode digitar texto diretamente ou fazer upload de um arquivo .txt.

Se você usar um arquivo de entrada, separe cada frase de entrada, frase ou parágrafo com um caractere de nova linha.

Limites da console:

Máximo de 96 entradas de texto por execução
Cada entrada de texto deve estar abaixo de 512 tokens

Limites de SDK e API:

Até 128.000 tokens de entrada totais por execução
As entradas de texto e imagem juntas contam para o limite total do token de entrada
Somente uma imagem é permitida por payload
A entrada da imagem deve ser codificada com base64

Se uma entrada for muito longa, use o parâmetro truncate para truncar o início ou o fim da entrada. Se a entrada exceder o limite de token e truncate for definido como None, a solicitação retornará um erro.

Incorporando Parâmetros de Modelo

Você pode alterar os parâmetros a seguir ao usar modelos de incorporação.

Truncar (truncate): Trunca tokens no início ou no fim quando a entrada excede o limite máximo de tokens.

Tipos de Incorporação (embeddingTypes)

Valores suportados:

float (Padrão)
int8
uint8
binary
ubinary
base64

Dimensões de Saída (outputDimensions)

Valores suportados:

256
512
1024
1536 (Padrão)

Migrando da Incorporação 3 para a Incorporação 4

Ao migrar da Incorporação 3 para a Incorporação 4, recomendamos alterar o tamanho do vetor de 1.024 para 1.536 dimensões e usar um novo índice para ajudar a evitar o tempo de inatividade.

Criar um novo índice vetorial

Crie um novo índice ou coleção no seu banco de dados vetorial configurado para 1.536 dimensões.
Incorporar novamente os dados

Reprocesse os documentos de origem com cohere.embed-v4.0 e defina outputDimensions=1536. Armazene as novas incorporações no novo índice.
Atualizar lógica de consulta
Atualize o aplicativo para usar a opção Incorporar 4 para consultas de pesquisa recebidas. Usar:
- input_type="search_query" para consultas
- input_type="search_document" para documentos armazenados
Cortar

Após o novo índice ser totalmente preenchido e testado, atualize o aplicativo para usar o novo índice de 1.536 dimensões.

Documentação do Oracle Cloud Infrastructure

Cohere Embed 4

Regiões para este Modelo

Acessar este Modelo

Principais Recursos

Usar Texto e Imagem na API EmbedText

Modo sob Demanda

Cluster de IA Dedicado para o Modelo

Formas Genéricas Legadas

Regras de Ponto Final para Clusters

Benchmarks de Desempenho do Cluster

Datas de Lançamento e Baixa do OCI

Dados de Entrada para Incorporações de Texto

Incorporando Parâmetros de Modelo

Migrando da Incorporação 3 para a Incorporação 4