マルチスレッド・スケーリング
ONNX Runtimeはマルチスレッドに対応しており、複数CPUコアの恩恵を受けることができます。
マルチコードCPU上で複数のスレッドを使用すると、ほとんどの埋込みモデルにおいてベクトル作成のレイテンシを低減できます。また、リクエスト間でベクトル作成を並列化することでスループットを向上させることもできます。ONNX Runtimeは、ワークロードに基づいて、intra-op並列処理およびinter-op並列処理のためのスレッド・プールのサイズを自動的に設定します。
親トピック: プライベートAIサービス・コンテナを構成する際の考慮事項