OpenAI gpt-oss-20b

OCI Generative AIは、事前トレーニング済のOpenAI gpt-oss-20bモデルへのアクセスをサポートします。

openai.gpt-oss-20bは、強力な推論およびエージェント・タスク用に設計された、オープン・ウェイトのテキストのみの言語モデルです。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

このモデルへのアクセス

コンソール、APIおよびCLIを使用してこのモデルにアクセスします:
ノート

サポートされているすべての商用リージョン、ソブリン・リージョンおよび政府リージョンのAPIエンドポイントは、管理APIおよび推論APIリンクにリストされています。各モデルには、そのサポートされているリージョンを介してのみアクセスできます。

主な機能

  • OCI生成AIのモデル名: openai.gpt-oss-20b
  • モデル・サイズ: 210億のパラメータ
  • テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
  • 知識:幅広い科目にわたる高度な推論およびテキストベースのタスクに特化しています。
  • コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、実行ごとにレスポンスの長さが16,000トークンに制限されます。
  • これらのユースケースにおけるエクセル:このモデルは、トレーニング・データのために、特にSTEM(科学、技術、工学、数学)、コーディング、および一般的な知識においてbです。低レイテンシ、オンデバイスのユース・ケース、ローカル推論、または大規模なメモリーを必要としない高速反復に使用します。
  • ファンクション・コール: APIを介してはい。
  • 推論あり:はい。
  • ナレッジ・カットオフ: 2024年6月

主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。

モデルの専用AIクラスタ

オンデマンド・モードのモデルの場合、クラスタは必要ありません。コンソール・プレイグラウンドおよびAPIからアクセスします。専用モードで使用可能なモデルの場合は、専用AIクラスタで作成されたエンドポイントを使用します。専用モードについて学習します。

次の表に、専用AIクラスタのハードウェア・ユニット・サイズ、使用可能なリージョンおよびサービス制限を示します。このモデルはファインチューニングに使用できません。

ハードウェアユニットサイズ 使用可能なリージョン 制限名
OAI_A10_X2
  • ドイツ中央部(フランクフルト)
  • 米国東部(アッシュバーン)
  • 米国中西部(シカゴ)
  • 制限名: dedicated-unit-a10-count
  • リクエスト増加単位: 2
OAI_A100_80G_X1
  • 米国中西部(シカゴ)
  • 制限名: dedicated-unit-a100-80g-count
  • リクエスト増加単位: 1
OAI_H100_X1
  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • インド南部(ハイデラバード)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国東部(アッシュバーン)
  • 米国中西部(シカゴ)
  • 制限名: dedicated-unit-h100-count
  • リクエスト増加単位: 1
重要

  • ハードウェアの価格については、コスト試算ツールを参照してください。
  • 専用AIクラスタでこのモデルをホストするのにテナンシ制限が不十分な場合は、関連するハードウェア制限の引上げをリクエストしてください。たとえば、dedicated-unit-h100-count制限の引上げを1ずつリクエストします。サービス制限の引き上げのリクエストを参照してください。

クラスタ・パフォーマンス・ベンチマーク

様々なユース・ケースについて、OpenAI gpt-oss-20b (新規)クラスタのパフォーマンス・ベンチマークを確認します。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに128,000トークンです。プレイグラウンドでは、実行ごとに最大出力トークンが16,000トークンに制限されます。

ヒント

困難な問題がある大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。
温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。デフォルト: 1

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0