この図は、マルチモーダルAIモデルを示しています。このモデルには次のコンポーネントが含まれます。

ユーザーは、モデルの音声/ビデオを音声に送信します。テキストは、音声からテキスト、OCI上のLLMに流れます。

テキストは、OCI上のLLMからテキストからスピーチにフローし、オーディオ/ビデオはユーザーにフローします。