OpenAI gpt-oss-20b
OCI Generative AIは、事前トレーニング済のOpenAI gpt-oss-20bモデルへのアクセスをサポートします。
openai.gpt-oss-20bは、強力な推論およびエージェント・タスク用に設計された、オープン・ウェイトのテキストのみの言語モデルです。
このモデルのリージョン
このモデルへのアクセス
主な機能
- OCI生成AIのモデル名:
openai.gpt-oss-20b - モデル・サイズ: 210億のパラメータ
- テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
- 知識:幅広い科目にわたる高度な推論およびテキストベースのタスクに特化しています。
- コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、実行ごとにレスポンスの長さが16,000トークンに制限されます。
- これらのユースケースにおけるエクセル:このモデルは、トレーニング・データのために、特にSTEM(科学、技術、工学、数学)、コーディング、および一般的な知識においてbです。低レイテンシ、オンデバイスのユース・ケース、ローカル推論、または大規模なメモリーを必要としない高速反復に使用します。
- ファンクション・コール: APIを介してはい。
- 推論あり:はい。
- ナレッジ・カットオフ: 2024年6月
主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。
オンデマンドモード
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| OpenAI gpt-oss-20b | openai.gpt-oss-20b |
OpenAI - gpt-oss-20b 価格:
|
オンデマンド・モードについて学習します。
モデルの専用AIクラスタ
オンデマンド・モードのモデルの場合、クラスタは必要ありません。コンソール・プレイグラウンドおよびAPIからアクセスします。専用モードで使用可能なモデルの場合は、専用AIクラスタで作成されたエンドポイントを使用します。専用モードについて学習します。
次の表に、専用AIクラスタのハードウェア・ユニット・サイズ、使用可能なリージョンおよびサービス制限を示します。このモデルはファインチューニングに使用できません。
| ハードウェアユニットサイズ | 使用可能なリージョン | 制限名 |
|---|---|---|
| OAI_A10_X2 |
|
|
| OAI_A100_80G_X1 |
|
|
| OAI_H100_X1 |
|
|
- ハードウェアの価格については、コスト試算ツールを参照してください。
- 専用AIクラスタでこのモデルをホストするのにテナンシ制限が不十分な場合は、関連するハードウェア制限の引上げをリクエストしてください。たとえば、
dedicated-unit-h100-count制限の引上げを1ずつリクエストします。サービス制限の引き上げのリクエストを参照してください。
クラスタ・パフォーマンス・ベンチマーク
様々なユース・ケースについて、OpenAI gpt-oss-20b (新規)クラスタのパフォーマンス・ベンチマークを確認します。
OCIのリリース日および除・売却日
リリース日およびリタイア日および置換モデル・オプションについては、モード(オンデマンドまたは専用)に基づいて次のページを参照してください。
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに128,000トークンです。プレイグラウンドでは、実行ごとに最大出力トークンが16,000トークンに制限されます。
ヒント
困難な問題がある大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、
pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。デフォルト: 1 - 頻度ペナルティ
-
トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0