シナリオ6: 生成AIへの埋込みワークロード・ベンチマークの軽量化

より軽い埋込みシナリオは、テキスト埋込みシナリオ5に似ていますが、各リクエストのサイズを16ドキュメント(それぞれ512トークン)に減らす点が異なります。シナリオ6では、単語数が少ない小さいファイルをサポートできます。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、テキスト埋込みシナリオを参照してください。テキスト埋込みシナリオは次のリージョンで実行されます。

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-english-v3.0
同時 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 1.19 54
8 1.41 348
32 3.47 600
128 12.08 558
モデル: 専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-english-light-v3.0
同時 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 0.85 48
8 1.15 354
32 3.15 594
128 11.26 846
モデル: 専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-v3.0
同時 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 1.28 42
8 1.38 288
32 3.44 497
128 11.94 702
モデル: 専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-light-v3.0
同時 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 1.03 54
8 1.35 300
32 3.11 570
128 11.50 888