生成AIでのハイパーパラメータの微調整
OCI Generative AIは、事前トレーニング済のベース・モデルに基づく次のハイパーパラメータを使用して、各ベース・モデルを微調整します。
ヒント
デフォルトのハイパーパラメータ値を使用して、各モデルのトレーニングを開始します。モデルが作成されたら、モデルの詳細ページの「モデル・パフォーマンス」で、精度と損失の値を確認します。結果に満足できない場合は、パフォーマンスが向上するまで、より大きなデータセットまたは異なるハイパーパラメータを使用して別のモデルを作成します。
デフォルトのハイパーパラメータ値を使用して、各モデルのトレーニングを開始します。モデルが作成されたら、モデルの詳細ページの「モデル・パフォーマンス」で、精度と損失の値を確認します。結果に満足できない場合は、パフォーマンスが向上するまで、より大きなデータセットまたは異なるハイパーパラメータを使用して別のモデルを作成します。
meta.llama-3.3-70b-instruct
次の表に、OCI生成AIがLoRAメソッドを使用してmeta.llama-3.3-70b-instructベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
| ハイパーパラメータ | 摘要 | 有効範囲 | デフォルト値 |
|---|---|---|---|
| 合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルが研修データセット全体を使用して1回トレーニングされたことを意味します。 |
1以上の整数 |
3 |
| 学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.0002 |
| トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から16の整数 | 8 |
| 早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間の数を定義します。この評価の回数において、損失メトリックが早期停止しきい値を超えていない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 15 |
| 早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを中止できます。早期停止カウンタをトリガーする最小評価損失改善を定義します。忍耐期間中に損失が最小値を超えて改善しない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.0001 |
| ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニングの損失や学習率などのモデル・メトリックが記録されます。トレーニング損失が予想どおりに減少していない場合、トレーニング・データまたはトレーニング・レートを確認してください。 | 10にプリセット | 10 |
LoRA r (LoRAメソッドのみ) |
更新マトリックスの注意ディメンション(ランク)。ランクが低くなると、更新行マトリックスが小さくなる、トレーニング可能パラメータも少なくなります。 | 1から64の整数 | 8 |
LoRA alpha (LoRAメソッドのみ) |
LoRAスケーリングのalphaパラメータ。LoRAウェイト・マトリックスは、LoRAアルファをLoRA rで除算してスケーリングされます。alphaパラメータでは、LoRAの重みを定義します。alphaパラメータは、新しい重みの数が少なく、モデルでトレーニングされた唯一の重みです。 |
1から128の整数 | 8 |
LoRA dropout (LoRAメソッドの場合のみ) |
LoRAレイヤーのニューロンのドロップアウト確率。dropoutメソッドは、レイヤー内のニューロンをランダムに無視(ドロップアウト)することで、オーバーフィッティングを防ぎます。10%のドロップアウトは、各ニューロンが10%の確率でドロップされることを意味します。 |
パーセンテージに1より小さい小数(0.1 (10%)など) | 0.1 |
次の式は、モデルが
totalTrainingStepsパラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize前述の式では、一部の端数処理計算は無視されます。meta.llama-3.1-70b-instruct
次の表に、OCI生成AIがLoRAメソッドを使用してmeta.llama-3.1-70b-instructベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
| ハイパーパラメータ | 摘要 | 有効範囲 | デフォルト値 |
|---|---|---|---|
| 合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルが研修データセット全体を使用して1回トレーニングされたことを意味します。 |
1以上の整数 |
3 |
| 学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.0002 |
| トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から16の整数 | 8 |
| 早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間の数を定義します。この評価の回数において、損失メトリックが早期停止しきい値を超えていない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 15 |
| 早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを中止できます。早期停止カウンタをトリガーする最小評価損失改善を定義します。忍耐期間中に損失が最小値を超えて改善しない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.0001 |
| ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニングの損失や学習率などのモデル・メトリックが記録されます。トレーニング損失が予想どおりに減少していない場合、トレーニング・データまたはトレーニング・レートを確認してください。 | 10にプリセット | 10 |
LoRA r (LoRAメソッドのみ) |
更新マトリックスの注意ディメンション(ランク)。ランクが低くなると、更新行マトリックスが小さくなる、トレーニング可能パラメータも少なくなります。 | 1から64の整数 | 8 |
LoRA alpha (LoRAメソッドのみ) |
LoRAスケーリングのalphaパラメータ。LoRAウェイト・マトリックスは、LoRAアルファをLoRA rで除算してスケーリングされます。alphaパラメータでは、LoRAの重みを定義します。alphaパラメータは、新しい重みの数が少なく、モデルでトレーニングされた唯一の重みです。 |
1から128の整数 | 8 |
LoRA dropout (LoRAメソッドの場合のみ) |
LoRAレイヤーのニューロンのドロップアウト確率。dropoutメソッドは、レイヤー内のニューロンをランダムに無視(ドロップアウト)することで、オーバーフィッティングを防ぎます。10%のドロップアウトは、各ニューロンが10%の確率でドロップされることを意味します。 |
パーセンテージに1より小さい小数(0.1 (10%)など) | 0.1 |
次の式は、モデルが
totalTrainingStepsパラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize前述の式では、一部の端数処理計算は無視されます。meta.llama-3-70b-instruct
次の表に、OCI生成AIがLoRAメソッドを使用してmeta.llama-3-70b-instruct(非推奨)ベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
| ハイパーパラメータ | 摘要 | 有効範囲 | デフォルト値 |
|---|---|---|---|
| 合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルが研修データセット全体を使用して1回トレーニングされたことを意味します。 |
1以上の整数 |
3 |
| 学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.0002 |
| トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から16の整数 | 8 |
| 早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間の数を定義します。この評価の回数において、損失メトリックが早期停止しきい値を超えていない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 15 |
| 早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを中止できます。早期停止カウンタをトリガーする最小評価損失改善を定義します。忍耐期間中に損失が最小値を超えて改善しない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.0001 |
| ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニングの損失や学習率などのモデル・メトリックが記録されます。トレーニング損失が予想どおりに減少していない場合、トレーニング・データまたはトレーニング・レートを確認してください。 | 10にプリセット | 10 |
LoRA r (LoRAメソッドのみ) |
更新マトリックスの注意ディメンション(ランク)。ランクが低くなると、更新行マトリックスが小さくなる、トレーニング可能パラメータも少なくなります。 | 1から64の整数 | 8 |
LoRA alpha (LoRAメソッドのみ) |
LoRAスケーリングのalphaパラメータ。LoRAウェイト・マトリックスは、LoRAアルファをLoRA rで除算してスケーリングされます。alphaパラメータでは、LoRAの重みを定義します。alphaパラメータは、新しい重みの数が少なく、モデルでトレーニングされた唯一の重みです。 |
1から128の整数 | 8 |
LoRA dropout (LoRAメソッドの場合のみ) |
LoRAレイヤーのニューロンのドロップアウト確率。dropoutメソッドは、レイヤー内のニューロンをランダムに無視(ドロップアウト)することで、オーバーフィッティングを防ぎます。10%のドロップアウトは、各ニューロンが10%の確率でドロップされることを意味します。 |
パーセンテージに1より小さい小数(0.1 (10%)など) | 0.1 |
次の式は、モデルが
totalTrainingStepsパラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize前述の式では、一部の端数処理計算は無視されます。cohere.command-r-16k (非推奨)
次の表に、OCI生成AIがT-Fewメソッドを使用してcohere.command-r-16k(非推奨)ベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
| ハイパーパラメータ | 摘要 | 有効範囲 | デフォルト値 |
|---|---|---|---|
| 合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルが研修データセット全体を使用して1回トレーニングされたことを意味します。 |
1から10の整数 |
1 |
| 学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0.000005から0.1までの数値 | 0.01 |
| トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から32の整数 | 16 |
| 早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間の数を定義します。この評価の回数において、損失メトリックが早期停止しきい値を超えていない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加するには1から16までの整数 | 10 |
| 早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを中止できます。早期停止カウンタをトリガーする最小評価損失改善を定義します。忍耐期間中に損失が最小値を超えて改善しない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0.001から0.1までの数値 | 0.001 |
| ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニングの損失や学習率などのモデル・メトリックが記録されます。トレーニング損失が予想どおりに減少していない場合、トレーニング・データまたはトレーニング・レートを確認してください。 | チューニングできず、1に設定されています。 | 1 |
次の式は、モデルが
totalTrainingStepsパラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize前述の式では、一部の端数処理計算は無視されます。2024年08月cohere.command日
次の表に、OCI生成AIがT-Fewメソッドを使用してcohere.command-r-16kベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
| ハイパーパラメータ | 摘要 | 有効範囲 | デフォルト値 |
|---|---|---|---|
| 合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルが研修データセット全体を使用して1回トレーニングされたことを意味します。 |
1から10の整数 |
1 |
| 学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0.000005から0.1までの数値 | 0.01 |
| トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から32の整数 | 16 |
| 早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間の数を定義します。この評価の回数において、損失メトリックが早期停止しきい値を超えていない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加するには1から16までの整数 | 10 |
| 早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを中止できます。早期停止カウンタをトリガーする最小評価損失改善を定義します。忍耐期間中に損失が最小値を超えて改善しない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0.001から0.1までの数値 | 0.001 |
| ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニングの損失や学習率などのモデル・メトリックが記録されます。トレーニング損失が予想どおりに減少していない場合、トレーニング・データまたはトレーニング・レートを確認してください。 | チューニングできず、1に設定されています。 | 1 |
次の式は、モデルが
totalTrainingStepsパラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize前述の式では、一部の端数処理計算は無視されます。