L'immagine mostra un modello AI multimodale. Il modello include i seguenti componenti:

Un utente invia audio/video a voce in testo nel modello. Il testo scorre da Speech a Text all'LLM su OCI.

Il testo scorre da LLM su OCI a Text to Speech, quindi l'audio/video viene trasmesso all'utente.