Die Abbildung zeigt ein multimodales KI-Modell. Das Modell umfasst folgende Komponenten:

Ein Benutzer sendet Audio/Video an Sprache an Text im Modell. Text fließt von Sprache zu Text in das LLM auf OCI.

Text fließt von LLM auf OCI in Text in Sprache, und dann fließt Audio/Video an den Benutzer.