xAI Grok 4 (New)
xai.grok-4
モデルは、先行するGrok 3よりも優れたパフォーマンスを発揮し、データ抽出、コーディング、テキストの要約などのエンタープライズ・ユース・ケースに優れています。このモデルには、財務、医療、法律、科学に関する深い知識があります。
これらのリージョンで使用可能
- 米国中西部(シカゴ) (オンデマンドのみ)
- 米国西部(フェニックス) (オンデマンドのみ)
リージョン間のコール
ユーザーがシカゴなどのリストされたリージョンでこのモデルに推論リクエストを入力すると、シカゴの生成AIサービスは、ソルトレイクシティでホストされているこのモデルにリクエストを行い、ユーザーの推論リクエスト元のシカゴにモデルのレスポンスを返します。リージョン間コールを含む事前トレーニング済モデルを参照してください。
主な機能
- OCI生成AIのモデル名:
xai.grok-4
- オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
- マルチモーダル・サポート:テキストおよびイメージを入力し、テキスト出力を取得します。
- ナレッジ:財務、医療、法律、科学に関する深い知識を持っています。
- コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
- 次のユースケースでのExcel:テキストの抽出、コーディングおよび要約
- ファンクション・コール:はい(APIを使用)。
- 構造化出力:はい。
- 推論あり:はい。理由の問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
- ナレッジ・カットオフ: 2024年11月
制限
- イメージ入力
-
- コンソール: 1つ以上の
.png
または.jpg
イメージを5MB以下でアップロードします。 - API:
base64
でエンコードされたバージョンのイメージを送信し、変換された各イメージが512を超え、1,792トークン未満であることを確認します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。
- コンソール: 1つ以上の
オンデマンドモード
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、およびモデルの評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
Grokモデルは、オンデマンド・モードでのみ使用できます。
価格設定ページのこのモデルの製品名については、次の表を参照してください。
モデル名 | OCIモデル名 | 価格設定ページ製品名 |
---|---|---|
xAI Grok 4 | xai.grok-4 |
xAI – Grok 4 |
リリース日
モデル | 一般提供リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
xai.grok-4 |
2025-07-23 | 仮 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。
xai.grok-4
モデルには推論がありますが、Grok 3 miniおよびGrok 3 mini fastモデルで使用されるreasoning_effort
パラメータはサポートしていません。xai.grok-4
モデルのAPIでreasoning_effort
パラメータを指定すると、エラー・レスポンスが返されます。
トラブルシューティング
問題: Grok 4モデルが応答しません。
原因:プレイグラウンドの「最大出力トークン」パラメータまたはAPIのmax_tokens
パラメータが低すぎる可能性があります。
処置:最大出力トークン・パラメータを増やしてください。
理由:推論と問題解決を必要とする困難な問題、および非常に高度な入力の場合、xai.grok-4
モデルは多くのトークンを考慮して消費する傾向があるため、max_tokens
パラメータが低すぎると、モデルでは割り当てられたトークンが使用され、最終的なレスポンスは返されません。