生成AIのトレーニング・データ
ここでは、OCI生成AIで事前トレーニング済モデルを微調整するためのトレーニング・データを作成するためのガイドラインを示します。カスタム・モデルは、1つのデータセットのみで微調整でき、80⁇%のトレーニングと20⁇%の検証データに自動的に分割されます。データセットは、少なくとも32のプロンプト/完了ペアを含むJSONLファイルでなければなりません。各行は {"prompt": "<your prompt>", "completion": "<expected response>"}としてフォーマットされます。ファイルをOCIオブジェクト・ストレージ・バケットに保存し、カスタム・モデルの作成時に参照します。
データセットの要件
カスタム・モデルのトレーニング用のデータセットには、次の要件があります。
- カスタム・モデルごとに最大1つのファインチューニング・データセットが許可されます。このデータセットは、トレーニングと検証のために80:20の比率にランダムに分割されます。
- 各ファイルには、少なくとも32のプロンプト/完了ペアの例が必要です。
- ファイル形式は
JSONLです。 JSONLファイルの各行の形式は、次のとおりです。{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n- ファイルはOCIオブジェクト・ストレージ・バケットに格納する必要があります。
JSONL形式
JSONLについて-
JSONLファイルには、各行に新しいJSON値またはオブジェクトが含まれています。ファイルは、通常のJSONファイルと同様に全体として評価されません。かわりに、各行は、個別のJSONファイルであるかのように処理されます。このフォーマットは、一連の入力をJSON形式で格納する場合に最適です。OCI Generative AIサービスは、次の形式でカスタム・モデルをファインチューニングするための
JSONLファイルを受け入れます:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . . JSONLの例
ノート
生成AI用に作成する各
生成AI用に作成する各
JSONLデータセット・ファイルに、次のプロパティがあることを確認してください: - ファイルは
UTF-8でエンコードされています。 - 各明細項目には、有効な
JSONオブジェクトが含まれます。 - 各
JSONオブジェクトには、"prompt"と"completion"の2つのプロパティが含まれます。 - 各
JSONオブジェクトは、改行または改行文字(\n)で入力します。
JSONLファイルを作成した後、オブジェクト・ストレージ・バケットにデータセットを追加します。