该图显示了多模式 AI 模型。该模型包括以下组件：

在 OCI VM 上部署 LLM
语音到文本
文本转语音
意见
内存
工具

用户将音频/视频发送到模型中的语音到文本。文本从语音流向文本流向 OCI 上的 LLM。

文本从 OCI 上的 LLM 流向文本到语音，然后音频/视频流向用户。