A imagem mostra um modelo de IA multimodal. O modelo inclui os seguintes componentes:

Um usuário envia Áudio/Vídeo para Fala com Texto no modelo. O texto flui de Fala para Texto para o LLM na OCI.

O texto flui do LLM na OCI para Texto para Fala e, em seguida, o Áudio/Vídeo flui para o usuário.