生成AIでのテキスト埋め込みの作成

OCI生成AIのCohere Embedモデルを使用して、セマンティック検索、テキスト分類または テキスト・クラスタリングにアプリケーションで使用するために、テキストがベクトル埋込みに変換されます。

文およびフレーズを指定し、モデルにおいてそれらの文をその意味に基づいてグループ化します。次に、生成された埋込みをアプリケーションで使用します。

テキスト埋込みの入力データには、次の要件が必要です。

  • 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
  • .txt拡張子を持つファイルのみが許可されます。
  • 入力ファイルを使用する場合、ファイル内の各入力文、フレーズまたは段落は、改行文字で区切る必要があります。
  • 各実行で最大96の入力が許可されます。
  • コンソールでは、テキストのみのモデルの各入力が512トークン未満である必要があります。
  • 入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、トークン制限内に収まるようにテキストの開始または終了を切り捨てるかどうかを選択します。入力が512トークン制限を超え、Truncateパラメータが Noneに設定されている場合、エラーメッセージが表示されます。
  • テキスト・モデルおよびイメージ・モデルでは、すべてのトークンが最大128,000個になるファイルおよび入力を設定できます。
  • Cohere Embed English Image V3などのテキストおよびイメージの埋込みモデルの場合は、テキストを追加するか、1つのイメージのみを追加できます。イメージには、APIを使用できます。イメージ入力はコンソールで使用できません。APIの場合は、各実行でbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは約1,610トークンに変換されます。
    1. コンソールのナビゲーション・バーで、生成AIをホストするリージョン(米国中西部(シカゴ)など)を選択しますリージョンで提供されているモデルを参照してください。
    2. ナビゲーション・メニューを開き、「分析とAI」を選択します。「AIサービス」で、「生成AI」を選択します。
    3. 操作が許可されているコンパートメントを選択します。プレイグラウンドが表示されない場合は、管理者に生成AIリソースへのアクセス権の付与を依頼して、次のステップに戻ります。
    4. 「プレイグラウンド」を選択します。
    5. 「埋込み」を選択します。
    6. 次のいずれかのアクションを実行して、テキスト埋込みを作成するモデルを選択します。
      • 「モデル」リストで、モデルを選択します。
      • 「モデル詳細の表示」「モデルの選択」の順に選択します。
    7. (オプション)「例」リストの例を使用するには、次のステップを実行します。
      1. 「例」リストから例を選択します。
      2. 「実行」を選択して、例の埋込みを生成します。
      3. 「出力ベクトル投影」セクションで、出力の2ディメンション・バージョンを確認します。

        埋込みで出力を視覚化するために、出力ベクトルは2つのディメンションに投影されて、ポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。

      4. 「クリア」を選択すると、すべての文が削除され、新しい文の埋込みの生成が開始されます。
    8. (オプション)サイズが5MB以下の.pngまたは.jpgイメージを追加します。
      イメージは1つのみ許可されます。
    9. 「センテンス入力」領域で、次のいずれかの方法でテキストを入力します。
      • 「1.」ボックスにセンテンスを入力し、「センテンスの追加」を選択してさらにセンテンスを追加します。
      • 「ファイルのアップロード」を選択し、追加するテキストを含むファイルを選択します。
      ノート

      .txt拡張子のファイルのみが許可されます。各入力文、フレーズまたは段落は、改行文字で区切る必要があります。各実行で最大96の入力が許可され、各入力のトークン数が512未満である必要があります。文を手動で追加するか、入力の最大数に達するまで複数のファイルをアップロードできます。
    10. 「切捨て」パラメータで、トークンの数が最大許容トークン数(512)を超える場合に、開始トークンおよび終了トークンのどちらを切り捨てるかを選択します。
      ヒント

      512トークンを超える入力の場合、「切捨て」パラメータを「なし」に設定すると、エラー・メッセージが表示されます。埋込みモデルを実行する前に、「切捨て」パラメータに「開始」または「終了」を選択します。
    11. 「実行」を選択します。
    12. 「出力ベクトル投影」セクションで、出力の2ディメンション・バージョンを確認します。
      埋込みを使用して出力を視覚化するために、出力ベクトルは2つのディメンションに投影され、ポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。
    13. 結果に問題がない場合は、「埋込みをJSONにエクスポート」を選択して、入力ごとに1024ディメンション・ベクトルを含むJSONファイルを取得します。
    14. (オプション)「コードの表示」を選択し、プログラミングの言語またはフレームワークを選択して「コードのコピー」を選択し、コードをファイルに貼り付けます。ファイルが、貼り付けられたコードの形式を保持していることを確認します。
      ヒント

      アプリケーションでコードを使用している場合:

    15. (オプション)「クリア」を選択してすべての文を削除し、新しい文の埋込みの生成を開始します。
      ノート

      「クリア」を選択すると、「切捨て」パラメータはデフォルト値の「なし」にリセットされます。
  • テキストの埋込みを作成するには、embed-text-result操作を使用します。

    次のコマンドを入力して、テキスト埋込みを作成するオプションのリストを表示します。

    oci generative-ai-inference embed-text-result embed-text -h

    OCI生成AI CLIコマンドのパラメータおよび値の完全なリストは、生成AI推論CLIおよび生成AI管理CLIを参照してください。

  • EmbedText操作を実行して、テキスト埋込みを作成します。

    APIの使用およびリクエストの署名の詳細は、REST APIのドキュメントおよびセキュリティ資格証明に関する項を参照してください。SDKの詳細は、SDKおよびCLIを参照してください。