xAI Grok 3

xai.grok-3モデルは、データの抽出、コーディング、テキストの要約などのエンタープライズ・ユース・ケースに優れています。このモデルは、金融、医療、法律、科学に関する深いドメイン知識を持っています。

xai.grok-3モデルとxai.grok-3-fastモデルでは、どちらも同じ基礎となるモデルを使用し、同じレスポンス品質を提供します。違いは、それらの提供方法にあります。xai.grok-3-fastモデルは、より高速なインフラストラクチャで提供され、標準のxai.grok-3モデルよりも大幅に高速な応答時間を提供します。高速化は、出力トークン当たりのコストが高くなります。

xai.grok-3モデルとxai.grok-3-fastモデルは、同じ基礎となるモデルを指しています。レイテンシの影響を受けるアプリケーションではxai.grok-3-fastを選択し、コストを削減する場合はxai.grok-3を選択します。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

このモデルへのアクセス

コンソール、APIおよびCLIを使用してこのモデルにアクセスします:

主な機能

OCI生成AIのモデル名: xai.grok-3
使用可能なオンデマンド:コンソール・プレイグラウンドまたはAPIを介して、このモデルにオンデマンドでアクセスします。
テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。(イメージのサポートはありません。)
ナレッジ:財務、医療、法律、科学に関する深いドメイン知識を持っています。
コンテキスト長: 131,072トークン(最大プロンプト+レスポンス長は、コンテキストを保持するための131,072トークンです)。プレイグラウンドでは、実行ごとにレスポンスの長さが16,000トークンに制限されますが、コンテキストは131,072のままです。
これらのユースケースでのエクセル:データの抽出、コーディングおよび要約テキスト
ファンクション・コール: APIを介してはい。
構造化出力:はい。
理由付けあり:いいえ。
キャッシュされた入力トークン:はい
- トークン数: PromptTokensDetailsリファレンスAPIのcachedTokens属性を参照してください。
- 価格: 価格ページを参照してください。
重要なノート:キャッシュされた入力機能は、プレイグラウンドとAPIの両方で使用できます。ただし、その情報はAPIを介してのみ取得できます。
ナレッジ・カットオフ: 2024年11月

制限

トークン/分(TPM)

このモデルへの推論コールは、顧客またはテナンシ当たり100,000トークン/分(TPM)に制限されます。

テナンシの現在の制限を確認するには、コンソールで「ガバナンスと管理」に移動します。「テナンシ管理」で、「制限、割当ておよび使用状況」を選択します。「サービス」で、「生成AI」を選択し、サービス制限を確認します。サービス制限の引き上げをリクエストするには、「サービス制限の引き上げをリクエスト」を選択します。TPM制限の引き上げには、次の制限名を使用します。grok-3-chat-tokens-per-minute-count

オンデマンドモード

ノート

Grokモデルは、オンデマンド・モードでのみ使用できます。


モデル名	OCIモデル名	価格設定ページ製品名
xAI Grok 3	`xai.grok-3`	xAI – Grok 3 価格: 入力トークンの出力のトークンキャッシュされた入力トークン

オンデマンドと専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。

OCIのリリース日および除・売却日

リリース日およびリタイア日および置換モデル・オプションについては、モデル・リタイア日(オンデマンド・モード)を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに131,072トークンです。プレイグラウンドでは、実行ごとに最大出力トークンが16,000トークンに制限されます。

温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

このペナルティは、プラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。最小: -2、最大: 2。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。最小: -2、最大: 2。無効にするには、0に設定します。

Oracle Cloud Infrastructureドキュメント