生成AIでのトレーニング・データ要件

OCI 生成AIで事前トレーニングされたモデルをファインチューニングするためのトレーニング・データを作成するためのガイドラインを理解します。

カスタム・モデルは、JSONL (JSON Lines)形式のトレーニング・データセット・ファイルを1つのみ受け入れます。ファイルには、ファイルごとに最低32のプロンプト/完了ペアの例が必要です。このデータセットは、トレーニングと検証のために80:20の比率にランダムに分割されます。トレーニング・ファイルの最大文数はありませんが、大規模なデータセットではトレーニングに時間がかかります。

JSONLについて

JSONLファイルには、各行に新しいJSON値またはオブジェクトが含まれます。ファイルは、通常のJSONファイルと同様に全体として評価されません。かわりに、各行は個別のJSONファイルであるかのように処理されます。この形式は、一連の入力をJSON形式で格納するのに最適です。

OCI Generative AIサービスは、次の形式でカスタム・モデルをファインチューニングするためのJSONLファイルを受け入れます:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
ノート

生成AI用に作成する各JSONLデータセット・ファイルに、次のプロパティがあることを確認してください:
  • ファイルはUTF-8でエンコードされています。
  • 各行アイテムには、有効なJSONオブジェクトが含まれます。
  • JSONオブジェクトには、"prompt""completion"の2つのプロパティがあります
  • JSONオブジェクトは、改行または改行文字(\n)で入力されます。

JSONLファイルを作成したら、オブジェクト・ストレージ・バケットにデータセットを追加します