xAI Grok 3 Fast
xai.grok-3-fastモデルは、データの抽出、コーディング、テキストの要約などのエンタープライズ・ユース・ケースに優れています。このモデルは、金融、医療、法律、科学に関する深いドメイン知識を持っています。
xai.grok-3モデルとxai.grok-3-fastモデルでは、どちらも同じ基礎となるモデルを使用し、同じレスポンス品質を提供します。違いは、それらの提供方法にあります。xai.grok-3-fastモデルは、より高速なインフラストラクチャで提供され、標準のxai.grok-3モデルよりも大幅に高速な応答時間を提供します。高速化は、出力トークン当たりのコストが高くなります。
xai.grok-3モデルとxai.grok-3-fastモデルは、同じ基礎となるモデルを指しています。レイテンシの影響を受けるアプリケーションではxai.grok-3-fastを選択し、コストを削減する場合はxai.grok-3を選択します。
これらのリージョンで使用可能
- 米国東部(アッシュバーン)(オンデマンドのみ)
- 米国中西部(シカゴ)(オンデマンドのみ)
- 米国西部(フェニックス)(オンデマンドのみ)
外部コール
xAI Grokモデルは、xAI用にプロビジョニングされたテナンシ内のOCIデータ・センターでホストされます。OCI Generative AIサービスを介してアクセスできるxAI Grokモデルは、xAIによって管理されます。
このモデルへのアクセス
主な機能
- OCI生成AIのモデル名:
xai.grok-3-fast - 使用可能なオンデマンド:コンソール・プレイグラウンドまたはAPIを介して、このモデルにオンデマンドでアクセスします。
- テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。(イメージのサポートはありません。)
- ナレッジ:財務、医療、法律、科学に関する深いドメイン知識を持っています。
- コンテキスト長: 131,072トークン(最大プロンプト+レスポンス長は、コンテキストを保持するための131,072トークンです)。プレイグラウンドでは、実行ごとにレスポンスの長さが16,000トークンに制限されますが、コンテキストは131,072トークンのままです。
- これらのユースケースでのエクセル:データの抽出、コーディングおよび要約テキスト
- ファンクション・コール: APIを介してはい。
- 構造化出力:はい。
- 理由付けあり:いいえ。
-
キャッシュされた入力トークン:はい
- トークン数: PromptTokensDetailsリファレンスAPIの
cachedTokens属性を参照してください。 - 価格: 価格ページを参照してください。
重要なノート:キャッシュされた入力機能は、プレイグラウンドとAPIの両方で使用できます。ただし、その情報はAPIを介してのみ取得できます。
- トークン数: PromptTokensDetailsリファレンスAPIの
- ナレッジ・カットオフ: 2024年11月
制限
- トークン/分(TPM)
-
このモデルへの推論コールは、顧客またはテナンシ当たり100,000トークン/分(TPM)に制限されます。
テナンシの現在の制限を確認するには、コンソールで「ガバナンスと管理」に移動します。「テナンシ管理」で、「制限、割当ておよび使用状況」を選択します。「サービス」で、「生成AI」を選択し、サービス制限を確認します。サービス制限の引き上げをリクエストするには、「サービス制限の引き上げをリクエスト」を選択します。TPM制限の引き上げには、次の制限名を使用します。
grok-3-chat-tokens-per-minute-count
オンデマンドモード
Grokモデルは、オンデマンド・モードでのみ使用できます。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| xAI Grok 3 Fast | xai.grok-3-fast |
xAI – Grok 3 Fast 価格:
|
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、モデル評価に最適です。
- リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。
リリース日
| モデル | ベータ・リリース日 | 一般提供リリース日 | オンデマンド除・売却日 | 専用モード除・売却日 |
|---|---|---|---|---|
xai.grok-3-fast |
2025-05-22 | 2025-06-24 | 暫定 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに131,072トークンです。プレイグラウンドでは、実行ごとに最大出力トークンが16,000トークンに制限されます。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、
pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。 - 頻度ペナルティ
-
トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。
このペナルティは、プラスまたはマイナスにすることができます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。最小: -2、最大: 2。無効にするには、0に設定します。
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。最小: -2、最大: 2。無効にするには、0に設定します。