该图显示了多模式 AI 模型。该模型包括以下组件:
用户将音频/视频发送到模型中的语音到文本。文本从语音流向文本流向 OCI 上的 LLM。
文本从 OCI 上的 LLM 流向文本到语音,然后音频/视频流向用户。