生成AIでのモデルの制限事項

OCI 生成AIカスタム・モデルおよびベース・モデルの次のモデル要件を確認して、モデルを最大限に活用してください。

ノート

事前トレーニング済ベース・モデルの主な機能については、生成AIでの事前トレーニング済基盤モデルを参照してください。

クラスタとベース・モデルの照合

重要

  • 推論のモデルをホストするための専用AIクラスタを作成すると、デフォルトで、選択したベース・モデルに対して1つのユニットが作成されます。1分当たりのスループットまたはリクエスト(RPM)を増やすには、「モデル・レプリカ」フィールドでインスタンスを増やすか、後でクラスタを編集するときにインスタンスを増やすことができます。たとえば、このクラスタで2つのモデル・レプリカを作成するには、2つのユニットが必要で、スループットが向上します。クラスタのパフォーマンス・ベンチマークを参照してください
  • ファインチューニング用の専用AIクラスタを作成すると、選択したベース・モデルに対して2つのユニットが作成されます。モデルのファインチューニングには、モデルをホストするよりも多くのGPUが必要です。ファインチューニングの単位数は2に固定されており、変更できません。同じファインチューニング・クラスタを使用して、複数のモデルを微調整できます。
  • 最大50個の異なるファインチューニング・モデル(cohereモデルのT-FEWファインチューニング方法を使用する場合)を同じホスティング・クラスタでホストできます。
  • ホスト・クラスタでホストされている様々なモデルを指す最大50個のエンドポイントを作成できます。これらのエンドポイントは、必要に応じて割り当てることができます。同じモデルを指すようにすべてのエンドポイントを割り当てることも、それらの各エンドポイントが異なるモデルを指すように指定することもできます。
  • 専用AIクラスタにコミットするかわりに、オンデマンド推論を行うときに支払うことができます。オンデマンド推論では、コンソール、プレイグラウンドまたはAPIを介して基礎モデルに到達します。オンデマンド機能については、生成AIでのコストの計算を参照してください。

次の表に、各基礎モデルに一致する専用AIクラスタのユニット・サイズとユニットを示します。

モデル機能 ベース・モデル クラスタのファインチューニング ホスティング・クラスタ
チャット meta.llama-3-70b-instruct
  • 単位サイズ: Large Generic
  • 必須ユニット: 2
  • 単位サイズ: Large Generic
  • 必須ユニット: 1
チャット cohere.command-r-plus 微調整に使用できません
  • 単位サイズ: Large Cohere V2
  • 必須ユニット: 1
チャット cohere.command-r-16k 微調整に使用できません
  • 単位サイズ: Small Cohere V2
  • 必須ユニット: 1
テキスト生成 cohere.command
  • 単位サイズ: Large Cohere
  • 必須ユニット: 2
  • 単位サイズ: Large Cohere
  • 必須ユニット: 1
テキスト生成 cohere.command-light
  • 単位サイズ: Small Cohere
  • 必須ユニット: 2
  • 単位サイズ: Small Cohere
  • 必須ユニット: 1
テキスト生成 meta.llama-2-70b-chat 微調整に使用できません
  • 単位サイズ: Llama2 70
  • 必須ユニット: 1
要約 cohere.command 微調整に使用できません
  • 単位サイズ: Large Cohere
  • 必須ユニット: 1
埋込み cohere.embed 微調整に使用できません
  • 単位サイズ: Embed Cohere
  • 必須ユニット: 1

エンドポイントが1つのホスティング・クラスタ

重要

モデルを推論に使用できるようにするには、ホスティング専用AIクラスタにエンドポイントを設定する必要があります。エンドポイントが機能するには、ホスティング専用AIクラスタに少なくとも1つのユニットが必要です。カスタム・モデルまたは事前トレーニング済基礎モデルのいずれかをそのエンドポイントに追加できます。さらに、同じクラスタ・インスタンスに多数のエンドポイントを含めることができます。

エンドポイントが多いホスティング・クラスタ

重要

ホスティング専用AIクラスタには、最大50のエンドポイントを含めることができます。これらのエンドポイントは、次のいずれかのユースケースに使用します。

エンドポイント別名

多数のエンドポイントを含む別名を作成します。これらの50のエンドポイントは、同じベース・モデルまたはカスタム・モデルの同じバージョンを指す必要があります。同じモデルを指すエンドポイントを多数作成すると、エンドポイントの管理が容易になります。これは、エンドポイントを異なるユーザーまたは異なる目的に使用できるためです。

スタック・サービング

T-Fewトレーニング方法を使用してcohereモデルを微調整し、同じクラスタで同じベース・モデルの異なるバージョンをホストできます。ファインチューニング・モデルの異なるバージョンに対して多くのエンドポイントを作成すると、ユーザーは様々なユース・ケースに対して新しいファインチューニング・モデルを評価できます。

ヒント

インスタンス数を増やして、ホスティング・クラスタでサポートされているコール・ボリュームを増やします。

次の表に、同じクラスタでモデルをホストするための要件を示します。

ホスティング・クラスタ・ユニット・サイズ 一致ルール モデル機能
Large Generic

同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:

  • 同じホスティング・クラスタで、meta.llama-3-70b-instructモデルに必要な数のエンドポイントを作成します。

同じクラスタで複数のカスタム・モデルをホストするには:

  • LoRAトレーニング・メソッドを使用して1つのモデルを微調整します。
  • ベースとしてmeta.llama-3-70b-instructモデルを使用します。
  • カスタム・モデルに必要な数のエンドポイントを作成します。
  • チャット
Large Cohere V2

同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:

  • 同じホスティング・クラスタで、cohere.command-r-plusモデルに必要な数のエンドポイントを作成します。
  • チャット
Small Cohere V2

同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:

  • 同じホスティング・クラスタで、cohere.command-r-16kモデルに必要な数のエンドポイントを作成します。
  • チャット
Small Cohere
同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
  • 同じホスティング・クラスタで、cohere.command-lightモデルに必要な数のエンドポイントを作成します。

同じクラスタで異なるカスタム・モデルをホストするには:

  • T-Fewトレーニング・メソッドを使用して、すべてのモデルを微調整します。
  • ベースとしてcohere.command-lightモデルを使用します。
  • すべてのベース・モデルのバージョンが同じであることを確認します。
  • 同じホスティング・クラスタ上の各モデルのエンドポイントを作成します。
  • テキスト生成
Large Cohere

同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:

  • 同じホスティング・クラスタで同じバージョンのcohere.commandモデルに必要な数のエンドポイントを作成します。

同じクラスタで異なるカスタム・モデルをホストするには:

  • T-Fewトレーニング・メソッドを使用して、すべてのモデルを微調整します。
  • ベースとしてcohere.commandモデルを使用します。
  • すべてのベース・モデルのバージョンが同じであることを確認します。
  • 各モデルのホスティング・クラスタにエンドポイントを追加します。
  • テキスト生成
  • 要約
Embed Cohere 同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
  • 同じホスティング・クラスタで、モデル名とバージョンがまったく同じcohere.embed-<models>モデルに必要な数のエンドポイントを作成します。
  • 埋込み
Llama2 70 同じクラスタ上の複数のエンドポイントを介して同じ事前トレーニング済ベース・モデルをホストするには:
  • 同じホスティング・クラスタで、meta.llama-2-70b-chatモデルに必要な数のエンドポイントを作成します。
  • テキスト生成

トレーニング・データ

カスタム・モデルをトレーニングするためのデータセットには、次の要件があります。

  • カスタム・モデルごとに最大1つのファインチューニング・データセットが許可されます。このデータセットは、トレーニングおよび検証用に80:20の比率にランダムに分割されます。
  • 各ファイルには、少なくとも32のプロンプト/完了ペアの例が必要です。
  • ファイル形式はJSONLです。
  • JSONLファイルの各行の形式は次のとおりです。

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • ファイルは、OCIオブジェクト・ストレージ・バケットに格納する必要があります。

生成AIでのトレーニング・データ要件について学習します。

テキスト埋込みの入力データ

テキスト埋込みを作成するための入力データには、次の要件があります。

  • 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
  • .txt拡張子のファイルのみが許可されます。
  • 入力ファイルを使用する場合は、ファイル内の各入力文、フレーズまたは段落を改行文字で区切る必要があります。
  • 実行ごとに最大96個の入力が許可されます。
  • 各入力のトークン数は512未満である必要があります。入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、トークン制限内に収まるようにテキストの開始または終了を切り取るかどうかを選択します。入力が512トークンの制限を超え、「切捨て」パラメータが「なし」に設定されている場合、エラー・メッセージが表示されます。

OCI生成AIでのテキスト埋込みの作成について学習します。