L'image montre un modèle d'IA multimodale. Le modèle comprend les composants suivants :

Un utilisateur envoie l'audio/vidéo au texte dans le modèle. Le texte passe du discours au texte vers le LLM sur OCI.

Le texte passe du LLM sur OCI au texte en passant par la parole, puis l'audio/vidéo passe à l'utilisateur.