エージェントの応答を高速化するにはどうすればよいですか。

AIエージェントの応答時間は、入力テキストと出力テキストの結合された長さに直接リンクされ、トランザクションごとにトークンで測定されます。たとえば、100トークンは約75語ですが、この比率はモデル、ライティング・スタイルおよび言語によって異なります。指示を慎重に行うことで、エージェントが明確に判断し、不要な処理を回避できます。

エージェントの迅速な対応に役立つ推奨事項を次に示します。

要約プロンプトを編集して、特定のユース・ケースに関連する重要な指示のみを含めます。スーパーバイザおよびワークフロー・エージェントのデフォルト・プロンプトは、多くのシナリオに対応するために広く記述されているため、一般セクションまたは冗長セクションを削除して処理を合理化し、レスポンス速度を向上させます。
簡潔なプロンプトでの入力トークンと出力トークンの使用を最小限に抑えます。コンテキスト・ウィンドウをオーバーロードするのではなく、検索拡張生成(RAG)を使用し、特定の出力長制限を設定します。
過剰な冗長な回答を避けるために、レスポンスの長さを指定します。
パラレルで動作する小規模な専用エージェントを使用し、静的命令をキャッシュします。
関連情報のみを含めます。コンテキストおよびドキュメントから不要な詳細を削除して、処理を合理化します。
すべての情報を1つのプロンプトにロードするのではなく、専門エージェントが調査、コーディング、Q&Aなどの個別のタスクを処理するマルチエージェント・アプローチを検討します。

適切なコンテキストを慎重に選択し、複雑なタスクを小さく集中したエージェントに分割することで、AIエージェントのスピードと効率の両方を向上させることができます。