生成AIへのモデルの埋込みについて
OCI生成AI埋込みモデルは、入力した各フレーズ、文または段落を、選択した埋込みモデルに応じて384 (ライト・モデル)または1024個の数値を持つ配列に変換します。
これらの埋込みを使用して、コンテキストまたはカテゴリが類似したフレーズでの類似性を検索できます。埋込みは、通常、ベクトル・データベースに格納されます。埋込みは、キーワードに基づいて結果を検索するのではなく、検索機能が検索するテキストの意味に重点を置いたセマンティック検索に使用されます。
- モデルの選択
-
- Cohere Embed Englishモデルを使用して、英語ドキュメントからテキスト埋込みを生成します。
- 次の場合にCohere Embed多言語モデルを使用します。
- ドキュメントは英語ではなく、サポートされている言語の1つで記述されます。
- ドキュメントは複数の言語で記述され、これらの言語はサポートされている言語の1つです。
- イメージからの埋込みの作成
- Cohere Embed English Image V3などのテキストおよびイメージ埋込みモデルでは、テキストを追加するか、1つのイメージのみを追加できます。イメージには、APIを使用できます。イメージ入力はコンソールで使用できません。APIの場合は、実行ごとにbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは、約1,610トークンに変換されます。
- 入力のサイズ
-
- 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
.txt
拡張子を持つファイルのみが許可されます。- 入力ファイルを使用する場合、ファイル内の入力文、フレーズまたは段落は、改行文字で区切る必要があります。
- 各実行には最大96の入力が許可されます。
- コンソールでは、テキストのみのモデルの各入力は512トークン未満である必要があります。
- 入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、テキストの開始または終了をトークン制限内に収めるかどうかを選択します。入力が512トークン制限を超え、「切捨て」パラメータが「なし」に設定されている場合、エラー・メッセージが表示されます。
- テキスト・モデルおよびイメージ・モデルでは、最大128,000個のトークンを追加するファイルおよび入力を使用できます。
- 埋込みのビジュアル化
-
埋込みを使用して出力を視覚化するために、出力ベクトルは2つのディメンションに投影されており、Oracle Cloudコンソールでポイントとしてプロットされています。近いポイントは、モデルが類似とみなすフレーズに対応します。「出力のエクスポート」を選択して、
JSON
ファイルに保存された埋込みごとに1024ベクトルの配列を取得します。
- ユース・ケース
-
次のユース・ケースは、テキスト埋込みに最適です。
-
セマンティック検索:コール・トランスクリプト、内部ナレッジ・ソースなどを検索します。
- テキスト分類:顧客チャット・ログおよびサポート・チケットのインテントを分類します。
- テキスト・クラスタリング:顧客レビューまたは新しいデータにおける重要なトピックを識別します。
- 推奨システム:推奨モデルで使用する数値機能など、ポッドキャストの説明を表します。
-
埋込みモデル・パラメータ
埋込みモデルを使用すると、次のパラメータを変更して別の出力を取得できます。
- 切捨て
-
文の開始トークンと終了トークンを切り捨てるかどうか(その文が許容されるトークンの最大数を超える場合)。たとえば、文に516個のトークンがありますが、最大トークン・サイズは512です。終了を切り捨てるように選択した場合、その文の最後の4つのトークンが切り捨てられます。