OpenAI gpt-oss-120b

OCI Generative AIは、事前トレーニング済のOpenAI gpt-oss-120bモデルへのアクセスをサポートします。

openai.gpt-oss-120bは、強力な推論およびエージェント・タスク用に設計された、オープン・ウェイトのテキストのみの言語モデルです。

これらの商業地域で利用可能

  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 米国中西部(シカゴ)

このソブリン・リージョンで使用可能

このモデルは、次のAPIエンドポイントを介してEU Sovereign Central (フランクフルト)で使用できます:

  • 推論API:

    https://inference.generativeai.eu-frankfurt-2.oci.oraclecloud.eu

  • 管理API:

    https://generativeai.eu-frankfurt-2.oci.oraclecloud.eu

このモデルは、専用AIクラスタ・エンドポイントを介してのみこのリージョンで使用できます。APIでは、モデル名とモデルOCIDの両方にopenai.gpt-oss-120bを使用します。

このリージョンのこのモデルではファインチューニングを使用できません。

Oracle EU Sovereign Cloudについて学習します。

この政府リージョンで使用可能

このモデルは、次のAPIエンドポイントを介してUK Gov South (ロンドン)で使用できます:

  • 推論API:

    https://inference.generativeai.uk-gov-london-1.oci.oraclegovcloud.uk

  • 管理API:

    https://generativeai.uk-gov-london-1.oci.oraclegovcloud.uk

APIでは、モデル名とモデルOCIDの両方にgpt-oss-120b を使用します。このモデルは、専用AIクラスタ・エンドポイントを介してのみこのリージョンで使用できます。

Oracle Cloud Infrastructure United Kingdom Government Cloudについて学習します。

主な機能

  • OCI生成AIのモデル名: openai.gpt-oss-120b
  • モデル・サイズ: 1170億個のパラメータ
  • テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
  • 知識:幅広い科目にわたる高度な推論およびテキストベースのタスクに特化しています。
  • コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、実行ごとにレスポンスの長さが16,000トークンに制限されます。
  • これらのユースケースにおけるエクセル:トレーニング・データにより、このモデルはSTEM(科学、テクノロジー、エンジニアリング、数学)、コーディング、および一般的な知識において特に強力です。生産レベルの高い合理化タスクに適しています。
  • ファンクション・コール: APIを介してはい。
  • 推論あり:はい。
  • ナレッジ・カットオフ: 2024年6月

主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。

オンデマンドモード

ノート

OpenAI gpt-oss-120b (Beta)モデルは、オンデマンド・モードでのみ使用できます。
モデル名 OCIモデル名 価格設定ページ製品名
OpenAI gpt-oss-120b openai.gpt-oss-120b OpenAI - gpt-oss-120b

価格:

  • 入力トークンの
  • 出力のトークン
オンデマンド専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、モデル評価に最適です。
  • リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。
重要

オンデマンド・モードの動的スロットル制限調整

OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。

この調整は、次の要因によって異なります。

  • ターゲット・モデルでサポートされている現在の最大スループット。
  • 調整時点における未使用のシステム容量。
  • 各テナンシの履歴スループットの使用量と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

スロットル制限の動的調整のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

オンデマンド・オプションのモデルの場合、クラスタは不要で、コンソール・プレイグラウンドまたはAPIを介してモデルに到達できます。専用モードでのみ使用可能なモデルの場合、専用AIクラスタで作成したトラフ・エンドポイントに到達できます。専用モードについて学習します。

リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。

ベース・モデル クラスタのファインチューニング ホスト・クラスタ 価格設定ページ情報 クラスタ制限の引上げのリクエスト
  • モデル名: OpenAI gpt-oss-120b
  • OCIモデル名: openai.gpt-oss-120b
ファインチューニングに使用できません
  • 単位サイズ: OAI_H100_X2
  • 必須単位: 1
  • 価格設定ページ製品名: OpenAI - Dedicated
  • ホスティングの場合は、単価を乗算します: x2
  • 制限名: dedicated-unit-h100-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 2
ヒント

専用AIクラスタでOpenAI gpt-oss-120bモデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-h100-countを2増やすようにリクエストします。

クラスタ・パフォーマンス・ベンチマーク

様々なユース・ケースについて、OpenAI gpt-oss-120b (新規)クラスタのパフォーマンス・ベンチマークを確認します。

リリースおよび除・売却日

モデル リリース日 オンデマンド除・売却日 専用モード除・売却日
openai.gpt-oss-120b 2025-11-17 最初の交換モデルのリリースから少なくとも1か月後。 最初の交換モデルのリリースから少なくとも6か月後。
重要

すべてのモデル時間明細および除・売却詳細のリストは、モデルの除・売却を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに128,000トークンです。プレイグラウンドでは、実行ごとに最大出力トークンが16,000トークンに制限されます。

ヒント

困難な問題がある大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。
温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。デフォルト: 1

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0