xAI Grok 3ミニ
xai.grok-3-mini
モデルは、応答する前に考える軽量モデルです。高速でスマートで、深いドメイン知識を必要としないロジックベースのタスクに最適です。生の思考の痕跡はアクセス可能です。
xai.grok-3-mini
モデルとxai.grok-3-mini-fast
モデルはどちらも、同じ基礎となるモデルを使用し、同じレスポンス品質を提供します。違いは、サービスの提供方法にあります。xai.grok-3-mini-fast
モデルは、より高速なインフラストラクチャで提供され、標準のxai.grok-3-mini
モデルよりも大幅に高速なレスポンス時間を提供します。増加した速度は、出力トークン当たりのコストが高くなります。
xai.grok-3-mini
モデルとxai.grok-3-mini-fast
モデルは、同じ基礎となるモデルを指します。レイテンシ依存アプリケーションにはxai.grok-3-mini-fast
を選択し、コストを削減するにはxai.grok-3-mini
を選択します。
これらのリージョンで使用可能
- 米国東部(アッシュバーン) (オンデマンドのみ)
- 米国中西部(シカゴ) (オンデマンドのみ)
- 米国西部(フェニックス) (オンデマンドのみ)
外部コール
OCI生成AIサービスを介してアクセスできるxAI Grokモデルは、xAIによって外部でホストされます。したがって、(OCI生成AIサービスを介した)xAI Grokモデルへのコールによって、xAIロケーションへのコールが発生する可能性があります。
主な機能
- OCI生成AIのモデル名:
xai.grok-3-mini
- オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
- テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。(画像サポートなし)
- 高速:ドメインに関する深い知識を必要としないロジックベースのタスクに最適です。
- コンテキスト長: 131,072個のトークン(最大プロンプト+レスポンス長は、実行ごとに131,072個のトークン)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
- ファンクション・コール:はい(APIを使用)。
- 構造化出力:はい。
- 推論あり:はい。「モデル・パラメータ」の項の
reasoning_effort
パラメータを参照してください。 - ナレッジ・カットオフ: 2024年11月
制限
- トークン/分(TPM)
-
このモデルに対する推論コールは、顧客またはテナンシ当たりの1分当たりの100,000トークン(TPM)に制限されます。
テナンシの現在の制限を確認するには、コンソールで「ガバナンスと管理」に移動します。「テナンシ管理」で、「制限、割当ておよび使用状況」を選択します。「サービス」で、「生成AI」を選択し、サービス制限を確認します。サービス制限の引き上げをリクエストするには、「サービス制限の引き上げのリクエスト」を選択します。TPM制限の引上げには、次の制限名を使用します。
grok-3-mini-chat-tokens-per-minute-count
オンデマンドモード
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、およびモデルの評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
Grokモデルは、オンデマンド・モードでのみ使用できます。
価格設定ページのこのモデルの製品名については、次の表を参照してください。
モデル名 | OCIモデル名 | 価格設定ページ製品名 |
---|---|---|
xAI Grok 3 Mini | xai.grok-3-mini |
xAI – Grok 3 Mini |
リリース日
モデル | ベータ・リリース日 | 一般提供リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|---|
xai.grok-3-mini |
2025-05-22 | 2025-06-24 | 仮 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに131,072トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。最小: 0、最大: 1。
確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。 - 推論の工数
-
コンソールではなくAPIを介して使用可能な
reasoning_effort
パラメータは、応答前にモデルが思考に費やす時間を制御します。次のいずれかの値に設定する必要があります。low
: 最小限の思考時間。より少ないトークンを使用して迅速なレスポンスを実現します。high
: 最大思考時間。複雑な問題に対してより多くのトークンを利用します。
正しいレベルの選択は、タスクによって異なります。
low
は、迅速に完了する単純な問合せに使用し、high
は、レスポンス・レイテンシが重要でない、より困難な問題に使用します。このパラメータの詳細は、xAIガイドを参照してください。