xAI Grok 3ミニ

xai.grok-3-miniモデルは、応答する前に考える軽量モデルです。高速でスマートで、深いドメイン知識を必要としないロジックベースのタスクに最適です。生の思考の痕跡はアクセス可能です。

xai.grok-3-miniモデルとxai.grok-3-mini-fastモデルはどちらも、同じ基礎となるモデルを使用し、同じレスポンス品質を提供します。違いは、サービスの提供方法にあります。xai.grok-3-mini-fastモデルは、より高速なインフラストラクチャで提供され、標準のxai.grok-3-miniモデルよりも大幅に高速なレスポンス時間を提供します。増加した速度は、出力トークン当たりのコストが高くなります。

xai.grok-3-miniモデルとxai.grok-3-mini-fastモデルは、同じ基礎となるモデルを指します。レイテンシ依存アプリケーションにはxai.grok-3-mini-fastを選択し、コストを削減するにはxai.grok-3-miniを選択します。

これらのリージョンで使用可能

米国東部(アッシュバーン) (オンデマンドのみ)
米国中西部(シカゴ) (オンデマンドのみ)
米国西部(フェニックス) (オンデマンドのみ)

重要

外部コール

xAI Grokモデルは、xAI用にプロビジョニングされたテナンシ内のOCIデータ・センターでホストされます。OCI生成AIサービスからアクセスできるxAI Grokモデルは、xAIによって管理されます。

このモデルへのアクセス

コンソール、APIおよびCLIを介してこのモデルにアクセスします:

主な機能

OCI生成AIのモデル名: xai.grok-3-mini
オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。(画像サポートなし)
高速:ドメインに関する深い知識を必要としないロジックベースのタスクに最適です。
コンテキスト長: 131,072トークン(最大プロンプト+レスポンス長は、コンテキストを保持するための131,072トークン)。プレイグラウンドでは、レスポンスの長さは実行ごとに16,000トークンに制限されますが、コンテキストは131,072トークンのままです。
ファンクション・コール:はい(APIを使用)。
構造化出力:はい。
キャッシュされた入力トークン:はい
- トークン数: PromptTokensDetailsリファレンスAPIのcachedTokens属性を参照してください。
- 価格設定: 「価格設定」ページを参照してください。
重要なノート:キャッシュ入力機能は、プレイグラウンドとAPIの両方で使用できます。ただし、その情報はAPIを介してのみ取得できます。
推論あり:はい。「モデル・パラメータ」の項のreasoning_effortパラメータを参照してください。
ナレッジ・カットオフ: 2024年11月

制限

トークン/分(TPM)

このモデルに対する推論コールは、顧客またはテナンシ当たりの1分当たりの100,000トークン(TPM)に制限されます。

テナンシの現在の制限を確認するには、コンソールで「ガバナンスと管理」に移動します。「テナンシ管理」で、「制限、割当ておよび使用状況」を選択します。「サービス」で、「生成AI」を選択し、サービス制限を確認します。サービス制限の引き上げをリクエストするには、「サービス制限の引き上げをリクエスト」を選択します。TPM制限の引上げには、次の制限名を使用します。grok-3-mini-chat-tokens-per-minute-count

オンデマンドモード

ノート

Grokモデルは、オンデマンド・モードでのみ使用できます。


モデル名	OCIモデル名	価格設定ページ製品名
xAI Grok 3 Mini	`xai.grok-3-mini`	xAI – Grok 3 Mini 価格は次のとおりです。入力トークンの数出力トークンキャッシュされた入力トークン

生成AIの事前トレーニング済基本モデルには、オンデマンドと専用の2つのモードを介してアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。

リリース日


モデル	ベータ・リリース日	一般提供リリース日	オンデマンド処分日	専用モード除・売却日
`xai.grok-3-mini`	2025-05-22	2025-06-24	仮	このモデルは専用モードには使用できません。

重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに131,072トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。

温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。最小: 0、最大: 1。

確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

推論の工数

コンソールではなくAPIを介して使用可能なreasoning_effortパラメータは、応答前にモデルが思考に費やす時間を制御します。次のいずれかの値に設定する必要があります。

low: 最小限の思考時間。より少ないトークンを使用して迅速なレスポンスを実現します。
high: 最大思考時間。複雑な問題に対してより多くのトークンを利用します。

正しいレベルの選択は、タスクによって異なります。lowは、迅速に完了する単純な問合せに使用し、highは、レスポンス・レイテンシが重要でない、より困難な問題に使用します。このパラメータの詳細は、xAIガイドを参照してください。

Oracle Cloud Infrastructureドキュメント