Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) è un modello di incorporamento multimodale che genera incorporamenti da testo, un'immagine o testo e un'immagine nello stesso payload API. L'input di immagine è disponibile solo tramite l'API.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Caratteristiche principali

  • Integrazioni Matryoshka: supporta le dimensioni di output di 256, 512, 1.024 e 1.536. Questa funzione non è supportata nei modelli Embed 3.
  • Limiti di input:
    • Console: fino a 96 input di testo per esecuzione, con ogni input di testo in 512 token. Questo limite si applica alla modalità su richiesta.
    • SDK e API: fino a 128.000 token di input totali per esecuzione.
  • Dimensioni di uscita:
    • Console:1,536
    • API: 1.536 per impostazione predefinita; supporta 256, 512, 1.024 e 1.536
  • Modalità di input:
    • API: supporta solo testo, una sola immagine o più input di testo con un'immagine nello stesso payload.
    • È consentita solo un'immagine per payload.
    • L'input di immagine è disponibile solo tramite l'API.
  • Input immagine:
    • Richiede un'immagine codificata con base64.
    • Un'immagine 512 x 512 contiene circa 1.610 token.
  • Supporto per la lingua:
    • Testo: inglese e multilingue
    • Immagine: solo in inglese

Usa testo e immagine nell'API EmbedText

Per includere un'immagine con testo, utilizzare l'attributo embedContents nel corpo della richiesta EmbedTextDetails per l'API EmbedText.

L'attributo embedContents è un array ed è supportato solo per i modelli Incorporati 4. Ogni elemento dell'array è un oggetto EmbedContent. Un oggetto EmbedContent può contenere contenuto di testo o contenuto di immagine.

Utilizzare embedContents quando si desidera inviare contenuto di testo e immagine nella stessa richiesta EmbedText. È possibile includere più voci di testo e un'immagine, fino alla dimensione massima di input.

Gli altri parametri per l'API EmbedText rimangono gli stessi.

Importante

L'attributo embedContents è supportato solo dai modelli Incorporato 4. Non utilizzare embedContents con i modelli Embed 3.

Modalità su richiesta

La modalità on-demand è pay-as-you-go ed è utile per la sperimentazione, il lavoro proof-of-concept e la valutazione dei modelli. Nella pagina di determinazione prezzi, questo modello viene elencato come indicato di seguito.

Nome modello Nome modello OCI Nome prodotto pagina determinazione prezzi
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Importante

Modifica del limite di limitazione dinamica per la modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo. A causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

Poiché i limiti di tasso possono cambiare, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. In caso contrario, le richieste rapide ripetute possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, come una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive dell'integrazione nel servizio.

Cluster AI dedicato per il modello

Per utilizzare questo modello con un cluster AI dedicato, creare un endpoint per il modello in un'area supportata.

Modello base Cluster di ottimizzazione Cluster di hosting Informazioni pagina determinazione prezzi Richiedi aumento limite cluster
  • Nome modello: Cohere Embed 4
  • Nome modello OCI: cohere.embed-v4.0
Non disponibile per l'ottimizzazione
  • Dimensione unità: Embed Cohere
  • Unità obbligatorie: 1
  • Nome prodotto pagina determinazione prezzi: Embed Cohere - Dedicated
  • Per l'Hosting, Moltiplica il Prezzo Unitario: x1
  • Nome limite: dedicated-unit-embed-cohere-count
  • Per l'hosting, richiedere l'aumento del limite entro: 1
Suggerimento

Se non si dispone di capacità di hosting sufficiente, richiedere un aumento per il limite di dedicated-unit-embed-cohere-count.

Regole endpoint per i cluster

  • Un cluster AI dedicato può contenere fino a 50 endpoint.
  • Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
  • Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.
Dimensione unità cluster di hosting Regole endpoint
Embed Cohere
  • Modello di base: per eseguire il modello ⁇ cohere.embed-v4.0 ⁇ su più endpoint, creare tutti gli endpoint necessari su un cluster Embed Cohere (dimensione unità).
  • Modello personalizzato: non è possibile perfezionare ⁇ cohere.embed-v4.0, quindi non è possibile creare e ospitare modelli personalizzati creati da tale base.
Suggerimento

Benchmark sulle prestazioni del cluster

Esamina i benchmark delle prestazioni del cluster Cohere Embed 4 per i diversi casi d'uso.

Dati di input per incorporamenti testo

Per le integrazioni di testo, è possibile aggiungere frasi, frasi o paragrafi. Nella console è possibile immettere direttamente il testo o caricare un file .txt.

Se si utilizza un file di input, separare ogni frase, frase o paragrafo di input con un carattere di nuova riga.

Limiti della console:

  • 96 input di testo al massimo per esecuzione
  • Ogni input di testo deve essere inferiore a 512 token

Limiti SDK e API:

  • Fino a 128.000 token di input totali per esecuzione
  • Gli input di testo e immagine insieme vengono conteggiati al limite totale del token di input
  • È consentita solo un'immagine per payload
  • L'input immagine deve essere codificato in base64

Se un input è troppo lungo, utilizzare il parametro truncate per troncare l'inizio o la fine dell'input. Se l'input supera il limite di token e truncate è impostato su None, la richiesta restituisce un errore.

Incorporamento parametri modello

Quando si utilizzano modelli di incorporamento, è possibile modificare i parametri riportati di seguito.

Tronca (truncate)

Tronca i token all'inizio o alla fine quando l'input supera il limite massimo di token.

Tipi di incorporamento (embeddingTypes)

Valori supportati:

  • float (predefinito)
  • int8
  • uint8
  • binary
  • ubinary
  • base64
Dimensioni di output (outputDimensions)

Valori supportati:

  • 256
  • 512
  • 1024
  • 1536 (impostazione predefinita)

Migrazione da Embed 3 a Embed 4

Quando si esegue la migrazione da Embed 3 a Embed 4, si consiglia di modificare la dimensione del vettore da 1.024 a 1.536 dimensioni e di utilizzare un nuovo indice per evitare tempi di inattività.

  1. Crea un nuovo indice vettoriale

    Creare un nuovo indice o una nuova raccolta nel database vettoriale configurato per 1.536 dimensioni.

  2. Inserisci nuovamente i dati

    Rielaborare i documenti di origine con cohere.embed-v4.0 e impostare outputDimensions=1536. Memorizza le nuove integrazioni nel nuovo indice.

  3. Aggiorna logica query

    Aggiornare l'applicazione in modo che utilizzi Incorporato 4 per le query di ricerca in entrata. Usa:
    • input_type="search_query" per le query
    • input_type="search_document" per i documenti memorizzati
  4. Taglia

    Dopo che il nuovo indice è stato completamente popolato e sottoposto a test, aggiornare l'applicazione per utilizzare il nuovo indice 1.536 dimensioni.