OpenAI gpt-oss-20b (New)
OCI生成AIは、事前トレーニング済OpenAI gpt-oss-20bモデルへのアクセスをサポートします。
openai.gpt-oss-20bは、強力な推論およびエージェント・タスクのために設計された、テキストのみのオープン・ウェイトの言語モデルです。
これらのリージョンで使用可能
- ドイツ中央部(フランクフルト)
- 日本中央部(大阪)
- 米国中西部(シカゴ)
このモデルへのアクセス
主な機能
- OCI生成AIのモデル名:
openai.gpt-oss-20b - モデル・サイズ: 210億のパラメータ
- テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
- ナレッジ:幅広い科目にわたる高度な推論とテキストベースのタスクに特化しています。
- コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
- これらのユースケースでのエクセル:このモデルは、トレーニング・データのため、STEM(科学、技術、工学、数学)、コーディングおよび一般的な知識において特に強力です。大容量メモリーを必要としない低レイテンシ、オンデバイスのユース・ケース、ローカル推論または高速反復に使用します。
- ファンクション・コール:はい(APIを使用)。
- 推論あり:はい。
- ナレッジ・カットオフ: 2024年6月
主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。
オンデマンドモード
OpenAI gpt-oss-20bモデルは、オンデマンド・モードでのみ使用できます。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| OpenAI gpt-oss-20b | openai.gpt-oss-20b |
OpenAI - gpt-oss-20b 次の価格:
|
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、モデル評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードの動的スロットル制限調整
OCI生成AIは、モデル需要とシステム容量に基づいてアクティブなテナンシごとにリクエスト・スロットル制限を動的に調整し、リソース割当てを最適化して公平なアクセスを確保します。
この調整は、次の要因によって異なります。
- ターゲット・モデルでサポートされている現在の最大スループット。
- 調整時の未使用のシステム容量。
- 各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。
ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。
動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
モデルの専用AIクラスタ
前述のリージョン・リストでは、(専用AIクラスタのみ)とマークされていないリージョンには、オンデマンドと専用のAIクラスタ・オプションの両方があります。オンデマンド・オプションの場合、クラスタは必要ありません。また、コンソール・プレイグラウンドまたはAPIを介してモデルにアクセスできます。専用モードについて学習します。
リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。
| ベース・モデル | ファインチューニング・クラスタ | ホスティング・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げをリクエスト |
|---|---|---|---|---|
|
ファインチューニングに使用できません |
|
|
|
専用AIクラスタでOpenAI gpt-oss-20bモデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-h100-countを1増やすようにリクエストします。
クラスタ・パフォーマンス・ベンチマーク
様々なユースケースについて、OpenAI gpt-oss-20b (新規)クラスタのパフォーマンス・ベンチマークを確認します。
リリース日と除・売却日
| モデル | リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
|---|---|---|---|
openai.gpt-oss-20b
|
2025-11-17 | 1番目の置換モデルのリリースから少なくとも1か月後。 | 最初の交換モデルのリリースから少なくとも6か月後。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。
ヒント
困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
pに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。デフォルト: 1 - 頻度ペナルティ
-
トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0