Cohere Embed 4
cohere.embed-v4.0は、テキスト入力またはイメージからテキスト埋込みを作成できるマルチモーダル・モデルです。イメージ入力はコンソールで使用できないため、APIを使用する必要があります。APIの場合は、各実行でbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは約1,610トークンに変換されます。
これらのリージョンで使用可能
- ブラジル東部(サンパウロ)(専用AIクラスタのみ)
- ドイツ中央部(フランクフルト)(専用AIクラスタのみ)
- インド南部(ハイデラバード)(専用AIクラスタのみ)
- 日本中央部(大阪)
- サウジアラビア中央部(リヤド)
- UAE東部(ドバイ)(専用AIクラスタのみ)
- 英国南部(ロンドン)(専用AIクラスタのみ)
- 米国東部(アッシュバーン)(専用AIクラスタのみ)
- 米国中西部(シカゴ)
このモデルへのアクセス
主な機能
- モード
- テキストとイメージの両方ではなく、両方を入力してください。
- イメージの埋込みを取得する場合、許可されるイメージは1つのみです。同じ埋込みに対してテキストとイメージを組み合せることはできません。APIのみによるイメージ入力。
- 入力と出力
- コンソールでは、各テキスト入力は、実行当たり512トークンおよび最大96入力未満である必要があります。
- SDKとAPIでは、すべての入力をまとめて、1回の埋込みごとに最大128,000個のトークンを追加できます。
- モデルは、埋込みごとに1,536次元ベクトルを出力します。
- 言語のサポート
- テキスト:英語または多言語。
- イメージ:英語のみ。
オンデマンドモード
価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、モデル評価に最適です。
- リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。
オンデマンド・モードの動的スロットル制限調整
OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。
この調整は、次の要因によって異なります。
- ターゲット・モデルでサポートされている現在の最大スループット。
- 調整時点における未使用のシステム容量。
- 各テナンシの履歴スループットの使用量と、そのテナンシに設定された指定されたオーバーライド制限。
ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。
スロットル制限の動的調整のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。
モデルの専用AIクラスタ
リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。
| ベース・モデル | クラスタのファインチューニング | ホスト・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げのリクエスト |
|---|---|---|---|---|
|
ファインチューニングに使用できません |
|
|
|
クラスタのエンドポイント・ルール
- 専用AIクラスタには、最大50のエンドポイントを保持できます。
- これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
- 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
| ホスト・クラスタ・ユニット・サイズ | エンドポイント・ルール |
|---|---|
| Embed Cohere |
|
-
ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
-
クラスタ当たり50を超えるエンドポイントの場合は、制限
endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。
クラスタ・パフォーマンス・ベンチマーク
様々なユース・ケースのCohere Embed 4クラスタ・パフォーマンス・ベンチマークを確認します。
リリースおよび除・売却日
| モデル | リリース日 | オンデマンド除・売却日 | 専用モード除・売却日 |
|---|---|---|---|
cohere.embed-v4.0
|
2025-07-03 | 最初の交換モデルのリリースから少なくとも6か月後。 | 最初の交換モデルのリリースから少なくとも6か月後。 |
テキスト埋込みの入力データ
テキスト埋込みを作成するための入力データには、次の要件があります。
- 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
.txt拡張子を持つファイルのみが許可されます。- 入力ファイルを使用する場合、ファイル内の各入力文、フレーズまたは段落は、改行文字で区切る必要があります。
- 各実行で最大96の入力が許可されます。
- コンソールでは、テキストのみのモデルの各入力が512トークン未満である必要があります。
- 入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、トークン制限内に収まるようにテキストの開始または終了を切り捨てるかどうかを選択します。入力が512トークン制限を超え、Truncateパラメータが Noneに設定されている場合、エラーメッセージが表示されます。
- テキスト・モデルおよびイメージ・モデルでは、すべてのトークンが最大128,000個になるファイルおよび入力を設定できます。
- Cohere Embed English Image V3などのテキストおよびイメージの埋込みモデルの場合は、テキストを追加するか、1つのイメージのみを追加できます。イメージには、APIを使用できます。イメージ入力はコンソールで使用できません。APIの場合は、各実行でbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは約1,610トークンに変換されます。
OCI Generative AIでのテキスト埋込みの作成について学習します。
埋込モデル・パラメータ
埋込みモデルを使用する場合、次のパラメータを変更して別の出力を取得できます。
- 切捨て
-
文の開始トークンと終了トークンを切り捨てるかどうか(その文が許容されるトークンの最大数を超える場合)。たとえば、文には516個のトークンがありますが、最大トークン・サイズは512です。終端を切り捨てるように選択すると、その文の最後の4つのトークンが切り捨てられます。