オンデマンド推論に対する支払い
OCI生成AIでオンデマンド推論にコミットすると、次のメリットが得られます。
- 生成AIの使用を開始するための障壁が低くなります。
- 使用可能なすべての生成AI基盤モデルにアクセスできます。
- モデルの実験と評価に最適です。
- トランザクションに対するPay as you go。詳細は、次のNoteを参照してください。
オンデマンド推論では、次の文字長に従って支払います。
- チャット: プロンプト長(文字数) +レスポンス長(文字数)
- テキスト埋込み: 入力長(文字数)
価格設定ページでは、1 characterは1 transactionとして計算されます。
基本モデルをホストしたり、専用AIクラスタでファインチューニングする場合、トランザクションではなく単位時間で請求されます。この場合、専用AIクラスタ・コストを計算する方法を学習するには、専用AIクラスタに対する支払を参照してください。
モデルとオンデマンド価格との照合
価格設定ページには、推論にプレイグラウンド、APIまたはCLIを使用する場合、10,000件のオンデマンド・トランザクションまたは1,000,000件のトークンの価格がリストされます。
「事前トレーニング済モデル」ページに移動し、操作するモデルを選択します。「オンデマンド・モード」セクションで、モデルの「価格設定ページ情報」を見つけます。次に、この項の例を確認して、入力文字数および出力文字数に基づいてコストを計算する方法を学習します。
チャットの例
Paulは、次のプロンプト(220 characters long)を使用してmeta.llama-3.3-70b-instructモデルをコールします。
サラウンド・サウンドを記録できるUSB接続コンパクト・マイク用の製品ピッチを生成します。マイクは、音楽や会話の録音に最も役立ちます。マイクはポッドキャストの記録にも役立ちます。
モデルからのレスポンスの長さは2,205 charactersです。パウロは、この呼びかけの費用を知りたいと思っています。次に、コストを計算するステップを示します。
テキスト埋込みの例
Ginaは、新しいセマンティック検索アプリケーションの埋込みに顧客契約を変換しています。Ginaは毎時16件の文書を採取しています。各ドキュメントの長さは約1,000 charactersです。Ginaは、これらの埋込みを生成するための月次請求の見積りを取得したいと考えています。次に、コストを計算するステップを示します。