OpenAI gpt-oss-20b (New)
OCI生成AIの1つのOAI_H100_X1ユニット(1つのH100 GPU)でホストされているopenai.gpt-oss-20b (OpenAI gpt-oss-20b)モデルのパフォーマンス・ベンチマークを確認します。
ランダム長
このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 0.15 | 310.18 | 267.85 | 1.10 | 0.90 | 703.41 |
| 2 | 0.06 | 246.49 | 467.94 | 1.32 | 1.50 | 1,174.08 |
| 4 | 0.07 | 196.86 | 742.66 | 1.58 | 2.51 | 1,961.26 |
| 8 | 0.06 | 167.75 | 1,267.44 | 1.84 | 4.24 | 3,342.67 |
| 16 | 0.11 | 138.54 | 2,001.69 | 2.29 | 6.71 | 5,252.20 |
| 32 | 0.28 | 87.77 | 2,375.62 | 3.63 | 8.26 | 6,290.45 |
| 64 | 0.31 | 66.31 | 3,471.69 | 4.76 | 11.95 | 9,094.38 |
| 128 | 0.43 | 37.61 | 3,451.69 | 7.68 | 13.19 | 9,724.71 |
| 256 | 1.39 | 27.15 | 3,233.22 | 10.00 | 13.70 | 9,461.31 |
チャット
このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 0.04 | 309.30 | 273.44 | 0.36 | 2.73 | 543.30 |
| 2 | 0.08 | 257.56 | 425.02 | 0.47 | 4.25 | 844.54 |
| 4 | 0.09 | 217.51 | 723.17 | 0.54 | 7.23 | 1,436.95 |
| 8 | 0.12 | 197.51 | 1,245.86 | 0.62 | 12.46 | 2,475.46 |
| 16 | 0.12 | 180.34 | 2,139.95 | 0.67 | 21.40 | 4,252.45 |
| 32 | 0.34 | 146.20 | 2,872.63 | 1.02 | 28.73 | 5,707.83 |
| 64 | 0.90 | 106.26 | 3,070.83 | 1.85 | 30.71 | 6,100.50 |
| 128 | 1.44 | 67.53 | 3,690.10 | 2.95 | 36.90 | 7,332.91 |
| 256 | 1.08 | 42.15 | 5,489.89 | 3.55 | 54.90 | 10,905.91 |
ジェネレーションヘビー
このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 0.04 | 312.78 | 307.59 | 3.24 | 0.31 | 337.94 |
| 2 | 0.09 | 253.78 | 495.55 | 4.03 | 0.50 | 544.48 |
| 4 | 0.10 | 207.31 | 810.29 | 4.92 | 0.81 | 890.28 |
| 8 | 0.12 | 186.85 | 1,453.29 | 5.46 | 1.45 | 1,596.84 |
| 16 | 0.12 | 172.37 | 2,663.04 | 5.92 | 2.66 | 2,925.98 |
| 32 | 0.30 | 144.37 | 4,349.11 | 7.22 | 4.35 | 4,778.21 |
| 64 | 0.56 | 116.87 | 6,803.86 | 9.11 | 6.80 | 7,475.21 |
| 128 | 1.05 | 81.16 | 9,142.52 | 13.37 | 9.14 | 10,044.44 |
| 256 | 1.16 | 59.39 | 13,147.16 | 18.01 | 13.15 | 14,445.62 |
RAGシナリオ1
検索拡張生成(RAG)シナリオには、大きな入力があり、ユースケースの要約などの短いレスポンスがあります。このシナリオでは、入力長は2,000トークンに固定され、応答長は200トークンに固定されます。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 0.05 | 307.29 | 276.08 | 0.70 | 1.38 | 2,993.75 |
| 2 | 0.11 | 252.42 | 437.08 | 0.89 | 2.19 | 4,739.41 |
| 4 | 0.19 | 206.66 | 663.78 | 1.15 | 3.32 | 7,199.38 |
| 8 | 0.35 | 177.05 | 1,007.62 | 1.48 | 5.04 | 10,927.18 |
| 16 | 0.52 | 144.84 | 1,492.26 | 1.92 | 7.46 | 16,183.54 |
| 32 | 0.92 | 97.78 | 1,803.69 | 3.03 | 9.02 | 19,559.41 |
| 64 | 1.68 | 66.08 | 2,098.59 | 4.81 | 10.49 | 22,758.87 |
| 128 | 3.30 | 38.69 | 2,169.83 | 8.73 | 10.85 | 23,530.04 |
| 256 | 6.59 | 22.97 | 2,203.38 | 15.88 | 11.02 | 23,892.56 |
RAGシナリオ2
検索拡張生成(RAG)シナリオには、大きな入力があり、ユースケースの要約などの短いレスポンスがあります。このシナリオでは、入力長は7,800トークンに固定され、応答長は200トークンに固定されます。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 0.14 | 296.08 | 228.79 | 0.81 | 1.14 | 9,011.37 |
| 2 | 0.24 | 222.84 | 333.43 | 1.14 | 1.67 | 13,133.46 |
| 4 | 0.46 | 167.95 | 446.77 | 1.67 | 2.23 | 17,599.00 |
| 8 | 0.84 | 126.22 | 590.38 | 2.48 | 2.95 | 23,255.47 |
| 16 | 1.61 | 91.55 | 714.55 | 3.95 | 3.57 | 28,146.38 |
| 32 | 3.00 | 55.52 | 785.96 | 6.98 | 3.93 | 30,958.57 |
| 64 | 5.77 | 32.34 | 822.33 | 12.76 | 4.11 | 32,391.21 |
| 128 | 11.35 | 16.82 | 808.94 | 24.97 | 4.04 | 31,863.84 |
| 256 | 22.79 | 14.81 | 845.34 | 38.26 | 4.23 | 33,297.87 |
RAGシナリオ3
検索拡張生成(RAG)シナリオには、大きな入力があり、ユースケースの要約などの短いレスポンスがあります。このシナリオでは、入力長は128,000トークンに固定され、応答長は200トークンに固定されます。
| 同時実行性 | 最初のトークンまでの時間(TTFT)(秒) | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 合計スループット(トークン/秒) |
|---|---|---|---|---|---|---|
| 1 | 5.43 | 208.76 | 28.33 | 6.38 | 0.14 | 17,876.33 |
| 2 | 8.33 | 77.55 | 30.22 | 12.56 | 0.15 | 19,068.05 |
| 4 | 14.16 | 33.64 | 30.84 | 24.39 | 0.15 | 19,460.28 |
| 8 | 26.20 | 15.26 | 31.00 | 48.22 | 0.16 | 19,559.97 |
| 16 | 61.38 | 11.42 | 34.23 | 87.75 | 0.17 | 21,601.48 |
| 32 | 144.11 | 11.35 | 33.68 | 170.42 | 0.17 | 21,253.95 |
| 64 | 286.47 | 11.33 | 33.45 | 312.79 | 0.17 | 21,105.36 |
| 128 | 479.74 | 11.39 | 32.22 | 506.03 | 0.16 | 20,326.17 |
| 256 | 570.15 | 11.44 | 28.66 | 596.46 | 0.14 | 18,085.14 |