汎用AIへのモデルの埋込みについて

OCI 生成AI埋込みモデルは、選択した埋込みモデルに応じて、入力する各フレーズ、文または段落を384または1024番号の配列に変換します。

これらの埋込みを使用して、コンテキストまたはカテゴリが類似したフレーズでの類似性を検索できます。通常、埋込みはベクトル・データベースに格納されます。埋込みは、キーワードに基づいて結果を検索するのではなく、検索機能が検索するテキストの意味に重点を置いたセマンティック検索に使用されます。

英語および他の言語でテキスト埋込みを作成するために、次の事前トレーニング済モデルを使用できます:

  • cohere.embed-english-v3.0
  • cohere.embed-multilingual-v3.0
  • cohere.embed-english-light-v3.0
  • cohere.embed-multilingual-light-v3.0

埋込みを使用して出力を視覚化するために、Oracle Cloudコンソールで出力ベクトルは2つのディメンションに投影され、ポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。「出力のエクスポート」をクリックして、JSONファイルに保存された埋込みごとに1024ベクターの配列を取得します。

次のユースケースは、テキスト埋込みに最適です。

  • セマンティック検索:コール・トランスクリプト、内部ナレッジ・ソースなどを検索します。

  • テキスト分類:顧客チャット・ログおよびサポート・チケットの目的を分類します。
  • テキスト・クラスタリング:顧客レビューまたは新しいデータの特徴的なトピックを識別します。
  • 推奨システム:推奨モデルで使用する数値機能など、ポッドキャストの説明を表します。

埋込みモデル・パラメータ

埋込みモデルを使用すると、次のパラメータを変更して別の出力を取得できます。

切り捨て

文の開始トークンと終了トークンを切り捨てるかどうか(その文が許容されるトークンの最大数を超える場合)。たとえば、文には516個のトークンがありますが、最大トークン・サイズは512です。末尾の切り捨てを選択すると、その文の最後の4つのトークンが切り捨てられます。