Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0)は、テキストおよびイメージの入力から埋込みを生成するマルチモーダル埋込みモデルです。イメージ入力はAPIでのみ使用できます。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

このモデルへのアクセス

このモデルには、次の方法でアクセスできます。
ノート

APIインクは、サポートされているすべての商用リージョン、ソブリン・リージョンおよび政府リージョンのエンドポイントをリストします。

主な機能

  1. 入力制限:
    • コンソール:実行当たり最大96テキスト入力で、各テキスト入力は512トークンの下にあります
    • SDKおよびAPI:実行当たり最大128,000の入力トークン
  2. 入力モード:
    • テキストまたはイメージを入力しますが、両方は入力できません
    • イメージ埋込みの場合、1つのイメージのみが許可されます
    • イメージ入力はAPIでのみ使用できます
  3. イメージ入力(APIでのみ使用可能)
    • base64でエンコードされたイメージが必要です
    • 512 x 512イメージは約 1,610トークンです
  4. 言語のサポート:
    • テキスト:英語と多言語
    • イメージ:英語のみ

オンデマンドモード

オンデマンド・モードは従量課金モードであり、実験、概念実証作業およびモデル評価に役立ちます。価格設定ページでは、このモデルは次のようにリストされます。

モデル名 OCIモデル名 価格設定ページ製品名
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
重要

オンデマンド・モードの動的スロットル制限の変更

OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

スロットル制限の動的変更のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

このモデルを専用AIクラスタで使用するには、サポートされているリージョンにモデルのエンドポイントを作成します。

ベース・モデル クラスタのファインチューニング ホスト・クラスタ 価格設定ページ情報 クラスタ制限の引上げのリクエスト
  • モデル名: Cohere Embed 4
  • OCIモデル名: cohere.embed-v4.0
ファインチューニングに使用できません
  • 単位サイズ: Embed Cohere
  • 必須単位: 1
  • 価格設定ページ製品名: Embed Cohere - Dedicated
  • ホスティングの場合は、単価を乗算します: x1
  • 制限名: dedicated-unit-embed-cohere-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 1
ヒント

十分なホスティング容量がない場合は、dedicated-unit-embed-cohere-count制限の引上げをリクエストします。

クラスタのエンドポイント・ルール

  • 専用AIクラスタには、最大50のエンドポイントを保持できます。
  • これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
  • 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
ホスト・クラスタ・ユニット・サイズ エンドポイント・ルール
Embed Cohere
  • ベース・モデル: 複数のエンドポイントで ⁇ cohere.embed-v4.0⁇modelを実行するには、必要な数のエンドポイントをEmbed Cohereクラスタ(単位サイズ)に作成します。
  • カスタム・モデル: cohere.embed-v4.0を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。
ヒント

  • ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。

  • クラスタ当たり50を超えるエンドポイントの場合は、制限endpoint-per-dedicated-unit-countの引上げをリクエストします。「制限引上げリクエストの作成」および生成AIのサービス制限を参照してください。

クラスタ・パフォーマンス・ベンチマーク

様々なユース・ケースのCohere Embed 4クラスタ・パフォーマンス・ベンチマークを確認します。

テキスト埋込みの入力データ

テキスト埋込みを作成するための入力データには、次の要件があります。

  • 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
  • .txt拡張子を持つファイルのみが許可されます。
  • 入力ファイルを使用する場合、ファイル内の各入力文、フレーズまたは段落は、改行文字で区切る必要があります。
  • 各実行で最大96の入力が許可されます。
  • コンソールでは、テキストのみのモデルの各入力が512トークン未満である必要があります。
  • 入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、トークン制限内に収まるようにテキストの開始または終了を切り捨てるかどうかを選択します。入力が512トークン制限を超え、Truncateパラメータが Noneに設定されている場合、エラーメッセージが表示されます。
  • テキスト・モデルおよびイメージ・モデルでは、すべてのトークンが最大128,000個になるファイルおよび入力を設定できます。
  • Cohere Embed English Image V3などのテキストおよびイメージの埋込みモデルの場合は、テキストを追加するか、1つのイメージのみを追加できます。イメージには、APIを使用できます。イメージ入力はコンソールで使用できません。APIの場合は、各実行でbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは約1,610トークンに変換されます。

OCI Generative AIでのテキスト埋込みの作成について学習します。

Embed 3からEmbed 4への移行

Embed 3からEmbed 4に移行し、ベクトル・サイズを1,024から1,536ディメンションに変更する場合は、ダウンタイムを回避するために新しい索引を使用します。

  1. 新規ベクトル索引の作成

    1,536ディメンション用に構成された新しい索引またはコレクションをベクトル・データベースに作成します。

  2. データを再埋め込み

    cohere.embed-v4.0を使用してソース・ドキュメントを再処理し、output_dimension=1536を設定します。新しい埋込みを新しい索引に格納します。

  3. 問合せロジックの更新

    着信検索問合せにEmbed 4を使用するようにアプリケーションを更新します。

    次のものを使用します。
    • 問合せの場合はinput_type="search_query"
    • 格納されたドキュメントの場合はinput_type="search_document"
  4. 切り取り

    新しい索引が完全に移入およびテストされたら、新しい1,536-dimension索引を使用するようにアプリケーションを更新します。