生成AIの概念

OCI Generative AIを理解するには、サービスに関連する概念と用語を確認してください。

生成AIモデル

これまで見たことのない入力を取得し、新しいコンテンツを生成する大量のデータに対してトレーニングされたAIモデル。

Retrieval-Augmented Generation (RAG)

特定のソースからデータを取得し、大規模言語モデル(LLM)応答を特定の情報で補強して接地応答を生成するプログラム。

プロンプトおよびプロンプト・エンジニアリング

プロンプト
大規模言語モデルから情報を指示または抽出するために使用される自然言語のテキストの文字列。たとえば、
  • 夏至とは何ですか。
  • 風に揺れる木についての詩を書いてください。
  • 前のテキストをより明るく書き直してください。
プロンプト・エンジニアリング
大規模言語モデル(LLM)から最適化されたプロンプトを抽出するための、自然言語で特定のリクエストを作成する反復プロセス。使用される正確な言語に基づいて、プロンプト・エンジニアはLLMを導くことで、より優れた、または異なる出力を提供できます。

推論

大規模言語モデル(LLM)が、プロンプトでユーザーが提供した指示およびコンテキストに基づいて応答を生成する機能。LLMは、明示的にプログラミングされなくても、学習したパターンとトレーニング・データの関係に基づいて、新しいデータを生成したり、予測したり、結論を導き出すことができます。

推論は、質問への回答、テキストの要約、翻訳などの自然言語処理(NLP)タスクの重要な機能です。生成AIの基礎モデルを推論に使用できます。

ストリーミング

大規模言語モデル(LLM)によるコンテンツの生成。ユーザーは、レスポンスをユーザーに返す前に完全なレスポンスが生成されるのを待機するかわりに、トークンを一度に1つずつ生成できます。

埋込み

テキストの意味を保持するプロパティを持つ数値表現。このテキストには、フレーズ、文または1つ以上の段落を指定できます。生成AI埋込みモデルでは、選択した埋込みモデルに応じて、入力する各フレーズ、文または段落を384個または1024個の数値の配列に変換します。これらの埋込みを使用して、コンテキストまたはカテゴリが類似したフレーズでの類似性を検出できます。埋込みは通常、ベクトル・データベースに格納されます。埋込みは、キーワードに基づいて結果を検索するのではなく、検索機能が検索するテキストの意味に重点を置いたセマンティック検索に使用されます。埋込みを作成するには、フレーズを英語および他の言語で入力できます。

プレイグラウンド

Oracle Cloudコンソールのインタフェースで、ホストされた事前トレーニング済みモデルおよびカスタム・モデルを、コードを記述することなく調査します。プレイグラウンドを使用してユース・ケースをテストし、プロンプトとパラメータを改良します。結果に満足したら、生成されたコードをコピーするか、モデルのエンドポイントを使用して生成AIをアプリケーションに統合してください。

オンデマンドモード

オンデマンド専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、モデル評価に最適です。
  • リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。

専用AIクラスタ

カスタム・モデルをファインチューニングしたり、基本の事前トレーニング済モデルおよびカスタム・モデルのエンドポイントをホスティングするために使用できるコンピュート・リソース。クラスタは自分のモデル専用であり、他の顧客と共有されません。

専用モード

オンデマンド専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。専用モードの主な機能は次のとおりです。

  • 専用AIクラスタの専用GPUセットを取得します。
  • 専用AIクラスタでカスタム・モデルを作成するには、ファインチューニング用にリストされている生成AIの提供済事前トレーニング済基礎モデルのサブセットをファインチューニングします。
  • 専用AIクラスタ上で基本モデルおよびファインチューニング・モデルのレプリカをホストできます。
  • 専用AIクラスタを使用する特定の時間に事前にコミットします。価格については、価格のページを参照してください。
  • リストされているすべてのリージョンの事前トレーニング済モデルで使用できます。
  • 予測可能なパフォーマンスが得られ、本番ワークロードに適しています。
ヒント

専用モードは、使用するためにハードウェアをリースするモデルのシングルテナント使用です。このモードは予測可能なパフォーマンスを提供し、本番ワークロードに推奨されます。専用クラスタの適切なサイズ設定に役立つクラスタ・パフォーマンス・ベンチマークを参照してください。

ノート

専用AIクラスタでホストされているモデルは、そのエンドポイントがデプロイされているリージョンでのみ使用できます。各モデルの使用可能なリージョンを参照してください。

カスタム・モデル

事前トレーニング済のモデルをベースとして使用し、独自のデータ・セットを使用してそのモデルをファインチューニングすることで作成できるモデル。

トークン

トークンは、単語、単語の一部または句読点です。たとえば、appleは1つのトークンで、friendshipは2つのトークン(friendship)で、don'tは2つのトークン(don't)ではありません。プレイグラウンドでモデルを実行する場合、出力トークンの最大数を設定できます。トークンごとに4文字を見積もります。

温度

出力テキストの生成に使用されるランダム性のレベル。プロンプトを実行するたびにプロンプトに対して同様の出力を生成するには、0を使用します。そのプロンプトに対してランダムな新しいテキストを生成するには、温度を大きくします。

ヒント

温度の設定を0で開始し、出力を改良するためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。繰返しリクエストに対して同じ結果を得ることを目的とするには、seedパラメータを使用します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、commandモデルの場合は0、Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

プレゼンス・ペナルティ

出力に表示される各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

尤度

大規模言語モデル(LLM)の出力では、トークンが現在生成されたトークンに従う可能性がどの程度高くなりますか。LLMが出力テキストの新しいトークンを生成すると、尤度がすべてのトークンに割り当てられ、この場合、尤度が高いトークンが現在のトークンの後に続く可能性がより高くなる。たとえば、単語favoriteの後は単語zebraではなく単語foodまたはbookが続く可能性が高くになります。尤度は、-15から0までの数値で定義され、負の数値が小さいほど、トークンを現在のトークンの後続く可能性は低くなります。

プリアンブル

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。cohere.command-r-plusおよびcohere.command-r-16kモデルのデフォルトのプリアンブルは次のとおりです。

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

プリアンブルは任意です。独自のプリアンブルを使用する場合は、最適な結果を得るために、モデルのコンテキスト、命令および会話スタイルを指定します。いくつかの例を示します。

  • あなたは、消費者の行動と市場動向を深く理解している熟練したマーケティング専門家です。わかりやすく有益なトーンで回答し、業界のインサイトとベストプラクティスを共有します。
  • あなたは楽しい活動に焦点を当てた旅行アドバイザーです。ユーモアの感覚と海賊の口調で答えなさい。
ノート

チャット会話にプリアンブルを含め、モデルに特定の方法で直接回答するように依頼することもできます。たとえば、「マーケティング・トーンで次の質問に回答します。「セーリングに行くのに最適な場所はどこですか?」

モデル・エンドポイント

大規模言語モデル(LLM)がユーザー・リクエストを受け入れ、モデルの生成済テキストなどのレスポンスを戻すことができる専用AIクラスタ上の指定ポイント。

OCI Generative AIでは、すぐに使用できる事前トレーニング済モデルおよびカスタム・モデルのエンドポイントを作成できます。これらのエンドポイントは、モデルをテストするためにプレイグラウンドにリストされます。アプリケーションでこれらのエンドポイントを参照することもできます。

コンテンツ・モデレーション

大規模言語モデル(LLM)で生成された応答から、毒性、暴力的、虐待的、軽蔑的、憎悪的、脅迫的、侮辱的、嫌がらせのフレーズを削除する機能。OCI Generative AIでは、コンテンツ・モデレーションは次の4つのカテゴリに分類されます。
  • アイデンティティ攻撃、侮辱、暴力の脅威、性的攻撃などのヘイトとハラスメント
  • 自己傷害、自己傷害および食事障害の昇進のような
  • 過激主義、テロリズム、組織犯罪、偽情報などのイデオロギー的危害
  • 詐欺や性的虐待などの搾取

デフォルトでは、OCI Generative AIは、すぐに使用できる事前トレーニング済モデルの上にコンテンツ・モデレーション・レイヤーを追加しません。ただし、事前トレーニング済モデルには、出力レスポンスをフィルタ処理するコンテンツ・モデレーションのレベルがあります。コンテンツ・モデレーションをモデルに組み込むには、事前トレーニング済またはファインチューニング済モデルのエンドポイントを作成するときに、コンテンツ・モデレーションを有効にする必要があります。「エンドポイントの作成」を参照してください。

廃止および非推奨になったモデル

リタイア
モデルがリタイアされると、生成AIサービスで使用できなくなります。
非推奨
モデルが非推奨になると、生成AIサービスで使用可能になり、リタイアされるまでの時間が定義されています。

詳細は、モデルのリタイアを参照してください。