Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0)は、テキスト、1つのイメージまたはテキストから埋込みを生成し、同じAPIペイロードに1つのイメージを生成するマルチモーダル埋込みモデルです。イメージ入力はAPIでのみ使用できます。
このモデルのリージョン
このモデルへのアクセス
主な機能
- Matryoshka埋込み: 256、512、1,024および1,536の出力ディメンションをサポートします。この機能は、埋込み3モデルではサポートされていません。
- 入力制限:
- コンソール:実行当たり最大96テキスト入力で、各テキスト入力は512トークンの下にあります。この制限はオンデマンド・モードに適用されます。
- SDKおよびAPI:実行当たり最大128,000個の合計入力トークン。
- 出力次元:
- コンソール:1,536
- API:デフォルトで1,536、サポートは256、512、1,024、および1,536
- 入力モード:
- API:同じペイロード内の1つのイメージを含むテキストのみ、1つのイメージのみ、または複数のテキスト入力をサポートします。
- ペイロードごとに one imageのみが許可されます。
- イメージ入力はAPIでのみ使用できます。
- 画像入力:
- base64でエンコードされたイメージが必要です。
- 512 x 512イメージは約 1,610トークンです。
- 言語のサポート:
- テキスト:英語と多言語
- イメージ:英語のみ
EmbedText APIでのテキストおよびイメージの使用
イメージをテキストとともに含めるには、EmbedText APIのEmbedTextDetailsリクエスト本文でembedContents属性を使用します。
embedContents属性は配列であり、Embed 4モデルでのみサポートされます。配列内の各項目は、EmbedContentオブジェクトです。EmbedContentオブジェクトには、テキスト・コンテンツまたはイメージ・コンテンツを含めることができます。
embedContentsは、同じEmbedTextリクエストでテキストおよびイメージ・コンテンツを送信する場合に使用します。最大入力サイズまで、複数のテキスト・エントリと1つのイメージを含めることができます。
EmbedText APIのその他のパラメータは同じままです。
embedContents属性は、Embed 4モデルでのみサポートされます。埋込み3モデルではembedContentsを使用しないでください。オンデマンドモード
オンデマンド・モードは従量課金モードであり、実験、概念実証作業およびモデル評価に役立ちます。価格設定ページでは、このモデルは次のようにリストされます。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
オンデマンド・モードの動的スロットル制限の変更
OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。
レート制限は変更される可能性があるため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。
モデルの専用AIクラスタ
このモデルを専用AIクラスタで使用するには、サポートされているリージョンにモデルのエンドポイントを作成します。
| ベース・モデル | クラスタのファインチューニング | ホスト・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げのリクエスト |
|---|---|---|---|---|
|
ファインチューニングに使用できません |
|
|
|
クラスタのエンドポイント・ルール
- 専用AIクラスタには、最大50のエンドポイントを保持できます。
- これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
- 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
| ホスト・クラスタ・ユニット・サイズ | エンドポイント・ルール |
|---|---|
| Embed Cohere |
|
-
ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
-
クラスタ当たり50を超えるエンドポイントの場合は、制限
endpoint-per-dedicated-unit-countの引上げをリクエストします。「制限引上げリクエストの作成」および生成AIのサービス制限を参照してください。
クラスタ・パフォーマンス・ベンチマーク
様々なユース・ケースのCohere Embed 4クラスタ・パフォーマンス・ベンチマークを確認します。
OCIのリリース日および除・売却日
リリース日およびリタイア日および置換モデル・オプションについては、モード(オンデマンドまたは専用)に基づいて次のページを参照してください。
テキスト埋込みの入力データ
テキスト埋込みの場合は、文、フレーズまたは段落を追加できます。コンソールでは、テキストを直接入力するか、.txtファイルをアップロードできます。
入力ファイルを使用する場合は、各入力文、句または段落を改行文字で区切ります。
コンソールの制限:
- 実行当たりの最大96テキスト入力
- 各テキスト入力は512トークン以下である必要があります
SDKおよびAPIの制限:
- 実行当たり最大128,000合計入力トークン
- テキスト入力とイメージ入力の合計は、入力トークンの合計制限にカウントされます
- ペイロードごとに one imageのみが許可されます
- イメージ入力はbase64でエンコードする必要があります
入力が長すぎる場合は、truncateパラメータを使用して入力の開始または終了を切り捨てます。入力がトークン制限を超え、truncateがNoneに設定されている場合、リクエストはエラーを返します。
埋込みモデル・パラメータ
埋込みモデルを使用する場合は、次のパラメータを変更できます。
- 切捨て(
truncate) -
入力が最大トークン制限を超えると、開始または終了時にトークンが切り捨てられます。
- 埋込みタイプ(
embeddingTypes) -
サポートされる値:
float(デフォルト)int8uint8binaryubinarybase64
- 出力ディメンション(
outputDimensions) -
サポートされる値:
25651210241536(デフォルト)
Embed 3からEmbed 4への移行
Embed 3からEmbed 4に移行する場合、ダウンタイムを回避するために、ベクトル・サイズを1,024から1,536ディメンションに変更し、新しい索引を使用することをお薦めします。
-
新規ベクトル索引の作成
1,536ディメンション用に構成されたベクトル・データベースに新しい索引またはコレクションを作成します。
-
データを再埋め込み
cohere.embed-v4.0を使用してソース・ドキュメントを再処理し、outputDimensions=1536を設定します。新しい埋込みを新しい索引に格納します。 -
問合せロジックの更新
着信検索問合せにEmbed 4を使用するようにアプリケーションを更新します。次のものを使用します。- 問合せの場合は
input_type="search_query" - 格納されたドキュメントの場合は
input_type="search_document"
- 問合せの場合は
-
切り取り
新しい索引が完全に移入およびテストされたら、新しい1,536-dimension索引を使用するようにアプリケーションを更新します。