xAI Grok 3 Fast

xai.grok-3-fastモデルは、データの抽出、コーディング、要約テキストなどのエンタープライズ・ユース・ケースに優れています。このモデルには、財務、医療、法律、科学に関する深い知識があります。

xai.grok-3モデルとxai.grok-3-fastモデルはどちらも、同じ基礎となるモデルを使用し、同じレスポンス品質を提供します。違いは、サービスの提供方法にあります。xai.grok-3-fastモデルは、より高速なインフラストラクチャで提供され、標準のxai.grok-3モデルよりも大幅に高速なレスポンス時間を提供します。増加した速度は、出力トークン当たりのコストが高くなります。

xai.grok-3モデルとxai.grok-3-fastモデルは、同じ基礎となるモデルを指します。レイテンシ依存アプリケーションにはxai.grok-3-fastを選択し、コストを削減するにはxai.grok-3を選択します。

これらのリージョンで使用可能

  • 米国中西部(シカゴ) (オンデマンドのみ)
  • 米国西部(フェニックス) (オンデマンドのみ)
重要

リージョン間のコール

ユーザーがシカゴなどのリストされたリージョンでこのモデルに推論リクエストを入力すると、シカゴの生成AIサービスは、ソルトレイクシティでホストされているこのモデルにリクエストを行い、ユーザーの推論リクエスト元のシカゴにモデルのレスポンスを返します。リージョン間コールを含む事前トレーニング済モデルを参照してください。

主な機能

  • OCI生成AIのモデル名: xai.grok-3-fast
  • オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
  • テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。(画像サポートなし)
  • ナレッジ:財務、医療、法律、科学に関する深い知識を持っています。
  • コンテキスト長: 131,072個のトークン(最大プロンプト+レスポンス長は、実行ごとに131,072個のトークン)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
  • 次のユースケースでのExcel:テキストの抽出、コーディングおよび要約
  • ファンクション・コール:はい(APIを使用)。
  • 構造化出力:はい。
  • 推論あり:いいえ。
  • ナレッジ・カットオフ: 2024年11月

制限

トークン/分(TPM)

このモデルに対する推論コールは、顧客またはテナンシ当たりの1分当たりの100,000トークン(TPM)に制限されます。

テナンシの現在の制限を確認するには、コンソールで「ガバナンスと管理」に移動します。「テナンシ管理」で、「制限、割当ておよび使用状況」を選択します。「サービス」で、「生成AI」を選択し、サービス制限を確認します。サービス制限の引き上げをリクエストするには、「サービス制限の引き上げのリクエスト」を選択します。TPM制限の引上げには、次の制限名を使用します。grok-3-chat-tokens-per-minute-count

オンデマンドモード

生成AIの事前トレーニング済基本モデルには、オンデマンド専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、およびモデルの評価に最適です。
  • としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
ヒント

オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

ノート

Grokモデルは、オンデマンド・モードでのみ使用できます。

価格設定ページのこのモデルの製品名については、次の表を参照してください。

モデル名 OCIモデル名 価格設定ページ製品名
xAI Grok 3 Fast xai.grok-3-fast xAI – Grok 3 Fast

リリース日

モデル ベータ・リリース日 一般提供リリース日 オンデマンド処分日 専用モード除・売却日
xai.grok-3-fast 2025-05-22 2025-06-24 このモデルは専用モードには使用できません。
重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに131,072トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。

温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

このペナルティは、正または負のいずれかになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。最小: -2、最大: 2。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。最小: -2、最大: 2。無効にするには、0に設定します。