OpenAI gpt-oss-20b (New)

Consultez les points de référence de performance pour le modèle openai.gpt-oss-20b (OpenAI gpt-oss-20b) hébergé sur une unité OAI_H100_X1 d'une grappe dédiée à l'IA (un processeur graphique H100) dans l'IA générative OCI.

  • Voir les détails du modèle et consulter les sections suivantes :
    • Régions disponibles pour ce modèle.
    • Taille d'unité de grappe dédiée à l'IA pour l'hébergement de ce modèle.
  • Vérifiez les mesures.

Longueur aléatoire

Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison de l'invite inconnue et des longueurs de réponse, nous avons utilisé une approche stochastique où l'invite et la longueur de réponse suivent une distribution normale. La longueur rapide suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 0,15 310,18 267,85 1,1 0,9 703,41
2 0,06 246,49 467,94 1,32 1,5 1 174,08
4 0,07 196,86 742,66 1,58 2,51 1 961,26
8 0,06 167,75 1 267,44 1,84 4,24 3 342,67
16 0,11 138,54 2 001,69 2,29 6,71 5 252,2
32 0,28 87,77 2 375,62 3,63 8,26 6 290,45
64 0,31 66,31 3 471,69 4,76 11,95 9 094,38
128 0,43 37,61 3 451,69 7,68 13,19 9 724,71
256 1,39 27,15 3 233,22 10 13,7 9 461,31

Clavarder

Ce scénario couvre les cas d'utilisation de clavardage et de dialogue où l'invite et les réponses sont courtes. L'invite et la longueur de la réponse sont chacune fixées à 100 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 0,04 309,3 273,44 0,36 2,73 543,3
2 0,08 257,56 425,02 0,47 4,25 844,54
4 0,09 217,51 723,17 0,54 7,23 1 436,95
8 0,12 197,51 1 245,86 0,62 12,46 2 475,46
16 0,12 180,34 2 139,95 0,67 21,4 4 252,45
32 0,34 146,2 2 872,63 1,02 28,73 5 707,83
64 0,9 106,26 3 070,83 1,85 30,71 6 100,5
128 1,44 67,53 3 690,1 2,95 36,9 7 332,91
256 1,08 42,15 5 489,89 3,55 54,9 10 905,91

Génération lourde

Ce scénario concerne les cas d'utilisation lourds de génération et de réponse de modèle. Par exemple, une description d'emploi longue générée à partir d'une courte liste à puces d'éléments. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de réponse est fixée à 1 000 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 0,04 312,78 307,59 3,24 0,31 337,94
2 0,09 253,78 495,55 4,03 0,5 544,48
4 0,1 207,31 810,29 4,92 0,81 890,28
8 0,12 186,85 1 453,29 5,46 1,45 1 596,84
16 0,12 172,37 2 663,04 5,92 2,66 2 925,98
32 0,3 144,37 4 349,11 7,22 4,35 4 778,21
64 0,56 116,87 6 803,86 9,11 6,8 7 475,21
128 1,05 81,16 9 142,52 13,37 9,14 10 044,44
256 1,16 59,39 13 147,16 18,01 13,15 14 445,62

Scénario ROV 1

Le scénario de génération augmentée par récupération (RAG) comporte une entrée importante et une réponse courte, telle que la récapitulation des cas d'utilisation. Dans ce scénario, la longueur d'entrée est fixée à 2 000 jetons et la longueur de réponse à 200 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 0,05 307,29 276,08 0,7 1,38 2 993,75
2 0,11 252,42 437,08 0,89 2,19 4 739,41
4 0,19 206,66 663,78 1,15 3,32 7 199,38
8 0,35 177,05 1 007,62 1,48 5,04 10 927,18
16 0,52 144,84 1 492,26 1,92 7,46 16 183,54
32 0,92 97,78 1 803,69 3,03 9,02 19 559,41
64 1,68 66,08 2 098,59 4,81 10,49 22 758,87
128 3,3 38,69 2 169,83 8,73 10,85 23 530,04
256 6,59 22,97 2 203,38 15,88 11,02 23 892,56

Scénario ROV 2

Le scénario de génération augmentée par récupération (RAG) comporte une entrée importante et une réponse courte, telle que la récapitulation des cas d'utilisation. Dans ce scénario, la longueur d'entrée est fixée à 7 800 jetons et la longueur de réponse à 200 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 0,14 296,08 228,79 0,81 1,14 9 011,37
2 0,24 222,84 333,43 1,14 1,67 13 133,46
4 0,46 167,95 446,77 1,67 2,23 17 599
8 0,84 126,22 590,38 2,48 2,95 23 255,47
16 1,61 91,55 714,55 3,95 3,57 28 146,38
32 3 55,52 785,96 6,98 3,93 30 958,57
64 5,77 32,34 822,33 12,76 4,11 32 391,21
128 11,35 16,82 808,94 24,97 4,04 31 863,84
256 22,79 14,81 845,34 38,26 4,23 33 297,87

Scénario ROV 3

Le scénario de génération augmentée par récupération (RAG) comporte une entrée importante et une réponse courte, telle que la récapitulation des cas d'utilisation. Dans ce scénario, la longueur d'entrée est fixée à 128 000 jetons et la longueur de réponse est fixée à 200 jetons.

Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde)
1 5,43 208,76 28,33 6,38 0,14 17 876,33
2 8,33 77,55 30,22 12,56 0,15 19 068,05
4 14,16 33,64 30,84 24,39 0,15 19 460,28
8 26,2 15,26 31 48,22 0,16 19 559,97
16 61,38 11,42 34,23 87,75 0,17 21 601,48
32 144,11 11,35 33,68 170,42 0,17 21 253,95
64 286,47 11,33 33,45 312,79 0,17 21 105,36
128 479,74 11,39 32,22 506,03 0,16 20 326,17
256 570,15 11,44 28,66 596,46 0,14 18 085,14