L'image présente un modèle d'IA multimodal. Le modèle contient les composants suivants :

Un utilisateur envoie de l'audio/vidéo à Speech to Text dans le modèle. Le texte passe du discours au texte au LLM sur OCI.

Le texte circule du LLM sur OCI vers le texte vers la parole, puis l'audio/vidéo vers l'utilisateur.