xAI Grok 4 Fast (新規)

xAI Grok 4 Fastモデルは、xAI Grok 4モデルの速度およびコスト最適化バージョンです。Grok 4と同様に、このモデルは、データ抽出、コーディング、テキストの要約などの企業のユースケースに優れ、財務、医療、法律、科学に関する深い知識を持っています。

Grok 4 FastはGrok 4より高速で、ファースト・トークンまでの時間が短く、出力速度も高速です。この速度の優先順位付けにより、このモデルはリアルタイム・アプリケーションに最適です。

これらのリージョンで使用可能

米国東部(アッシュバーン) (オンデマンドのみ)
米国中西部(シカゴ) (オンデマンドのみ)
米国西部(フェニックス) (オンデマンドのみ)

重要

外部コール

xAI Grokモデルは、xAI用にプロビジョニングされたテナンシ内のOCIデータ・センターでホストされます。OCI生成AIサービスからアクセスできるxAI Grokモデルは、xAIによって管理されます。

このモデルへのアクセス

コンソール、APIおよびCLIを介してこのモデルにアクセスします:

概要

xAI Grok 4 Fastモデルには、2つの異なるモデルで提供される2つのモードがあります。ReasoningモデルとNon-Reasoningモデル。選択するモデルを決定するには、次の表を参照してください。


モード	モデル名	機能	使用する状況
推論	`xai.grok-4-fast-reasoning`	ステップバイステップの思考連鎖分析のための思考トークンを生成し、よりレイテンシ(以前の推論モデルより少ない)でより深い論理的推論を実現します。	慎重で分析的なソリューションを必要とする複雑で多段階の問題。
理由なし	`xai.grok-4-fast-non-reasoning`	思考トークン・フェーズをスキップして、パターン一致の即時回答を返します。	速度が優先されるシンプルで簡単な問合せ。

主な機能

OCI Generative AIのモデル名:
- xai.grok-4-fast-reasoning
- xai.grok-4-fast-non-reasoning
オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
マルチモーダル・サポート:テキストおよびイメージを入力し、テキスト出力を取得します。
ナレッジ:財務、医療、法律、科学に関する深い知識を持っています。
コンテキストの長さ: 200万のトークン(最大プロンプト+レスポンスの長さは、コンテキストを保持するための200万のトークンです)。プレイグラウンドでは、レスポンスの長さは各実行で16,000トークンに制限されますが、コンテキストは200万のままです。
モード:複雑なタスクの場合は「reasoning」、スピードクリティカルで簡単なリクエストの場合は「non-reasoning」の2つのモードで動作します。
ファンクション・コール:はい(APIを使用)。
構造化出力:はい。
キャッシュされた入力トークン:はい
- トークン数: PromptTokensDetailsリファレンスAPIのcachedTokens属性を参照してください。
- 価格設定: 「価格設定」ページを参照してください。
重要なノート:キャッシュ入力機能は、プレイグラウンドとAPIの両方で使用できます。ただし、その情報はAPIを介してのみ取得できます。
ナレッジ・カットオフ:使用不可

制限

イメージ入力

コンソール: 1つ以上の.pngまたは.jpgイメージを5MB以下でアップロードします。
API:サポートされているのは、JPG/JPEGおよびPNGファイル形式のみです。base64エンコードされたバージョンのイメージを送信し、変換された各イメージが256を超え、1,792トークン未満であることを確認します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。アップロードできるイメージの最大数は記載されていません。テキストとイメージの両方の合計トークン数は、200万個のトークンのモデルの全体的なコンテキスト・ウィンドウ内にある必要があります。

オンデマンドモード

ノート

Grokモデルは、オンデマンド・モードでのみ使用できます。


モデル名	OCIモデル名	価格設定ページ製品名
xAI Grok 4 Fast	`xai.grok-4-fast-reasoning` `xai.grok-4-fast-non-reasoning`	xAI - Grok 4高速価格は次のとおりです。入力トークンの数出力トークンキャッシュされた入力トークン

生成AIの事前トレーニング済基本モデルには、オンデマンドと専用の2つのモードを介してアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。

リリース日


モデル	一般提供リリース日	オンデマンド処分日	専用モード除・売却日
`xai.grok-4-fast-reasoning`	2025-10-10	仮	このモデルは専用モードには使用できません。
`xai.grok-4-fast-non-reasoning`	2025-10-10	仮	このモデルは専用モードには使用できません。

重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン: 各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。

ヒント

困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。「トラブルシューティング」を参照してください。
温度: 出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p: 次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

トラブルシューティング

問題: Grok 4 Fastモデルが応答しません。

原因:プレイグラウンドの「最大出力トークン」パラメータまたはAPIのmax_tokensパラメータが低すぎる可能性があります。たとえば、デフォルトでは、このパラメータはプレイグラウンドで600個のトークンに設定されており、複雑なタスクでは低い場合があります。

処置:最大出力トークン・パラメータを増やしてください。

Oracle Cloud Infrastructureドキュメント