エージェントの応答を高速化するにはどうすればよいですか。
AIエージェントの応答時間は、入力テキストと出力テキストの結合された長さに直接リンクされ、トランザクションごとにトークンで測定されます。 たとえば、100トークンは約75語ですが、この比率はモデル、ライティング・スタイルおよび言語によって異なります。 指示を慎重に行うことで、エージェントが明確に判断し、不要な処理を回避できます。
エージェントの迅速な対応に役立つ推奨事項を次に示します。
- 要約プロンプトを編集して、特定のユース・ケースに関連する重要な指示のみを含めます。 スーパーバイザおよびワークフロー・エージェントのデフォルト・プロンプトは、多くのシナリオに対応するために広く記述されているため、一般セクションまたは冗長セクションを削除して処理を合理化し、レスポンス速度を向上させます。
- 簡潔なプロンプトでの入力トークンと出力トークンの使用を最小限に抑えます。 コンテキスト・ウィンドウをオーバーロードするのではなく、検索拡張生成(RAG)を使用し、特定の出力長制限を設定します。
- 過剰な冗長な回答を避けるために、レスポンスの長さを指定します。
- パラレルで動作する小規模な専用エージェントを使用し、静的命令をキャッシュします。
- 関連情報のみを含めます。 コンテキストおよびドキュメントから不要な詳細を削除して、処理を合理化します。
- すべての情報を1つのプロンプトにロードするのではなく、専門エージェントが調査、コーディング、Q&Aなどの個別のタスクを処理するマルチエージェント・アプローチを検討します。
適切なコンテキストを慎重に選択し、複雑なタスクを小さく集中したエージェントに分割することで、AIエージェントのスピードと効率の両方を向上させることができます。