Sobre a Incorporação de Modelos no Generative AI

Os modelos de incorporação de IA Gerativa do OCI transformam cada frase, sentença ou parágrafo que você insere em um array com números de 384 ou 1024, dependendo do modelo de incorporação escolhido.

Você pode usar essas incorporações para encontrar similaridade em frases semelhantes no contexto ou na categoria. Embeddings são normalmente armazenados em um banco de dados vetorial. As incorporações são usadas principalmente para pesquisas semânticas em que a função de pesquisa se concentra no significado do texto que está pesquisando, em vez de encontrar resultados com base em palavras-chave.

Os seguintes modelos pré-treinados estão disponíveis para criar incorporações de texto em inglês e outros idiomas:

  • cohere.embed-english-v3.0
  • cohere.embed-multilingual-v3.0
  • cohere.embed-english-light-v3.0
  • cohere.embed-multilingual-light-v3.0

Para visualizar as saídas com incorporações, os vetores de saída são projetados em duas dimensões e plotados como pontos na Console do Oracle Cloud. Os pontos próximos correspondem às frases que o modelo considera semelhantes. Clique em Exportar saída para obter um array de 1024 vetores para cada incorporação salva em um arquivo JSON.

Os casos de uso a seguir são ideais para incorporações de texto.

  • Pesquisa semântica: Pesquise por meio de transcrições de chamadas, origens de conhecimento internas etc.

  • Classificação de texto: Classifique a intenção nos logs de chat do cliente e nos tickets de suporte.
  • Clusterização de texto: Identifique tópicos relevantes em avaliações de clientes ou novos dados.
  • Sistemas de recomendação: representam descrições de podcast, por exemplo, como um recurso numérico a ser usado em um modelo de recomendação.

Incorporando o Parâmetro de Modelo

Ao usar os modelos de incorporação, você pode obter uma saída diferente alterando o parâmetro a seguir.

Truncar

Se os tokens de início ou de fim em uma sentença serão truncados, quando essa sentença exceder o número máximo de tokens permitidos. Por exemplo, uma frase tem 516 tokens, mas o tamanho máximo do token é 512. Se você optar por truncar o final, os últimos 4 tokens dessa instrução serão cortados.