En la imagen se muestra un modelo de IA multimodal. El modelo incluye los siguientes componentes:

Un usuario envía audio/vídeo a texto en el modelo. Flujos de texto de Speech a Text para el LLM en OCI.

El texto fluye del LLM en OCI al texto al habla y, a continuación, el audio/vídeo fluye al usuario.