生成AIでのモデルの制限事項
OCI 生成AIカスタム・モデルおよびベース・モデルの次のモデル要件を確認して、モデルを最大限に活用してください。
クラスタとベース・モデルの照合
- 推論のモデルをホストするための専用AIクラスタを作成すると、デフォルトで、選択したベース・モデルに対して1つのユニットが作成されます。1分当たりのスループットまたはリクエスト(RPM)を増やすには、「モデル・レプリカ」フィールドでインスタンスを増やすか、後でクラスタを編集するときにインスタンスを増やすことができます。たとえば、このクラスタで2つのモデル・レプリカを作成するには、2つのユニットが必要で、スループットが向上します。クラスタのパフォーマンス・ベンチマークを参照してください
- ファインチューニング用の専用AIクラスタを作成すると、選択したベース・モデルに対して2つのユニットが作成されます。モデルのファインチューニングには、モデルをホストするよりも多くのGPUが必要です。ファインチューニングの単位数は2に固定されており、変更できません。同じファインチューニング・クラスタを使用して、複数のモデルを微調整できます。
- 最大50個の異なるファインチューニング・モデル(
cohere
モデルのT-FEWファインチューニング方法を使用する場合)を同じホスティング・クラスタでホストできます。 - ホスト・クラスタでホストされている様々なモデルを指す最大50個のエンドポイントを作成できます。これらのエンドポイントは、必要に応じて割り当てることができます。同じモデルを指すようにすべてのエンドポイントを割り当てることも、それらの各エンドポイントが異なるモデルを指すように指定することもできます。
- 専用AIクラスタにコミットするかわりに、オンデマンド推論を行うときに支払うことができます。オンデマンド推論では、コンソール、プレイグラウンドまたはAPIを介して基礎モデルに到達します。オンデマンド機能については、生成AIでのコストの計算を参照してください。
次の表に、各基礎モデルに一致する専用AIクラスタのユニット・サイズとユニットを示します。
モデル機能 | ベース・モデル | クラスタのファインチューニング | ホスティング・クラスタ |
---|---|---|---|
チャット | meta.llama-3-70b-instruct |
|
|
チャット | cohere.command-r-plus |
微調整に使用できません |
|
チャット | cohere.command-r-16k |
微調整に使用できません |
|
テキスト生成 | cohere.command |
|
|
テキスト生成 | cohere.command-light |
|
|
テキスト生成 | meta.llama-2-70b-chat |
微調整に使用できません |
|
要約 | cohere.command |
微調整に使用できません |
|
埋込み | cohere.embed |
微調整に使用できません |
|
エンドポイントが1つのホスティング・クラスタ
モデルを推論に使用できるようにするには、ホスティング専用AIクラスタにエンドポイントを設定する必要があります。エンドポイントが機能するには、ホスティング専用AIクラスタに少なくとも1つのユニットが必要です。カスタム・モデルまたは事前トレーニング済基礎モデルのいずれかをそのエンドポイントに追加できます。さらに、同じクラスタ・インスタンスに多数のエンドポイントを含めることができます。
エンドポイントが多いホスティング・クラスタ
ホスティング専用AIクラスタには、最大50のエンドポイントを含めることができます。これらのエンドポイントは、次のいずれかのユースケースに使用します。
- エンドポイント別名
-
多数のエンドポイントを含む別名を作成します。これらの50のエンドポイントは、同じベース・モデルまたはカスタム・モデルの同じバージョンを指す必要があります。同じモデルを指すエンドポイントを多数作成すると、エンドポイントの管理が容易になります。これは、エンドポイントを異なるユーザーまたは異なる目的に使用できるためです。
- スタック・サービング
-
T-Fewトレーニング方法を使用して
cohere
モデルを微調整し、同じクラスタで同じベース・モデルの異なるバージョンをホストできます。ファインチューニング・モデルの異なるバージョンに対して多くのエンドポイントを作成すると、ユーザーは様々なユース・ケースに対して新しいファインチューニング・モデルを評価できます。
インスタンス数を増やして、ホスティング・クラスタでサポートされているコール・ボリュームを増やします。
次の表に、同じクラスタでモデルをホストするための要件を示します。
ホスティング・クラスタ・ユニット・サイズ | 一致ルール | モデル機能 |
---|---|---|
Large Generic |
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
同じクラスタで複数のカスタム・モデルをホストするには:
|
|
Large Cohere V2 |
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
|
|
Small Cohere V2 |
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
|
|
Small Cohere |
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
同じクラスタで異なるカスタム・モデルをホストするには:
|
|
Large Cohere |
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
同じクラスタで異なるカスタム・モデルをホストするには:
|
|
Embed Cohere | 同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
|
|
Llama2 70 | 同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
|
|
トレーニング・データ
カスタム・モデルをトレーニングするためのデータセットには、次の要件があります。
- カスタム・モデルごとに最大1つのファインチューニング・データセットが許可されます。このデータセットは、トレーニングおよび検証用に80:20の比率にランダムに分割されます。
- 各ファイルには、少なくとも32のプロンプト/完了ペアの例が必要です。
- ファイル形式は
JSONL
です。 JSONL
ファイルの各行の形式は次のとおりです。{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- ファイルは、OCIオブジェクト・ストレージ・バケットに格納する必要があります。
生成AIでのトレーニング・データ要件について学習します。
テキスト埋込みの入力データ
テキスト埋込みを作成するための入力データには、次の要件があります。
- 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
.txt
拡張子のファイルのみが許可されます。- 入力ファイルを使用する場合は、ファイル内の各入力文、フレーズまたは段落を改行文字で区切る必要があります。
- 実行ごとに最大96個の入力が許可されます。
- 各入力のトークン数は512未満である必要があります。入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、トークン制限内に収まるようにテキストの開始または終了を切り取るかどうかを選択します。入力が512トークンの制限を超え、「切捨て」パラメータが「なし」に設定されている場合、エラー・メッセージが表示されます。
OCI生成AIでのテキスト埋込みの作成について学習します。