OCI生成AIモデルのオンデマンドおよび専用モード

OCI Generative AIは、オンデマンド専用の2つのモデル・サービング・モードを提供します。次のトピックを確認して、ユース・ケースに最適なモードを選択します。

このページを確認した後、各モデルで使用可能なモードについては、地域別の生成AIモデルおよび価格については、価格のページを参照してください。

オンデマンドモード

オンデマンド・モードでは、専用のAIクラスタを作成せずに、サポートされている事前トレーニング済の基礎モデルを使用できます。

主な機能は次のとおりです。

  • プレイグラウンドとAPIのどちらを使用する場合でも、推論コールごとにPay as you goを使用します。
  • 専用容量をプロビジョニングせずに生成AIの使用を開始します。
  • 実験、概念実証、モデル評価に適しています。
  • モデルが専用AIクラスタのみとしてリストされていないリージョンの事前トレーニング済モデルで使用できます。

オンデマンド・モードの動的スロットル制限変更

OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。

この変更は、次の要因によって異なります。

  • ターゲット・モデルでサポートされている現在の最大スループット。
  • 変更時点で未使用のシステム容量。
  • 各テナンシの履歴スループットの使用量と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

スロットル制限の動的変更のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

オンデマンド・モードの非推奨

モデルがオンデマンド・モードでリタイアされると、生成AIサービス・プレイグラウンドまたは生成AI推論APIで使用できなくなります。

モデルがオンデマンド・モードで非推奨になると、生成AIサービスで使用可能のままになりますが、廃止されるまでに使用できる時間が定義されています。専用モードでは、この時間が長くなります。

OCI生成AIモデルの場合は、モデル・リタイア日(オンデマンド・モード)を参照してください。

専用モード

専用モードでは、OCI Generative AIでモデルをホストおよびファインチューニングするための専用GPU容量が得られます。専用AIクラスタは、予測可能なパフォーマンスを提供し、本番ワークロードに適しています。

専用AIクラスタを使用して、次のことができます。

  • サポートされているOCI生成AI事前トレーニング済モデルを微調整します。
  • OCI Generative AIの事前トレーニング済モデルをホストします。
  • サポートされている事前トレーニング済モデルをファインチューニングして作成されたカスタム・モデルをホストします。
  • OCI生成AIと互換性のあるインポート済モデルをホストします。

専用モードでモデルにアクセスするには、専用AIクラスタでモデルのエンドポイントを作成します。

専用モードは、各モデルについてリストされたリージョンでサポートされているモデルで使用できます。

専用AIクラスタのコミットメント

OCI Generative AIの事前トレーニングおよびファインチューニング・モデルの場合、専用AIクラスタには使用のコミットメントが必要です。

  • ホスティング・クラスタ:ホスティング・クラスタ当たりの最小コミットメントは744ユニット時間です。
  • ファインチューニング・クラスタ:ファインチューニング・ジョブ当たりの最小コミットメントは1単位時間です。モデルによっては、ファインチューニングに少なくとも2ユニットが必要な場合があります。
ノート

インポートされたモデルでは、744単位時間ホスティングのコミットメントは必要ありません。 インポートされたモデルをホストする専用AIクラスタを作成する場合、OCI生成AIの事前トレーニング済モデルおよびファインチューニング・モデルに適用される最小ホスティング・コミットメントにコミットすることなく、モデルをホストできます。

専用モードの除・売却

モデルが専用モードでリタイアされると、リタイアしたモデルの専用AIクラスタは作成できなくなりますが、リタイアしたモデルを実行しているアクティブな専用AIクラスタは引き続き実行されます。リタイアしたモデルから実行されているカスタム・モデルは、アクティブな専用AIクラスタでも引き続き使用可能であり、リタイアしたモデルで作成されたカスタム・モデルを使用して、新しい専用AIクラスタを引き続き作成できます。ただし、Oracleではこれらのシナリオのサポートは制限されており、Oracleエンジニアリングでは、モデルに関連する問題を解決するために、サポートされているモデルにアップグレードするよう求められる場合があります。

専用モードでモデルがリタイア日より長く存続するようにリクエストするには、サポート・チケットを作成します。

OCI生成AIモデルの場合は、モデル・リタイア日(専用モード)を参照してください。

専用モードの非推奨

モデルが専用モードで非推奨になると、生成AIサービスで使用可能のままになりますが、廃止されるまでの使用時間は定義されています。専用モードの非推奨時間が、同じモデルのオンデマンドの非推奨時間より長くなっています。