En la imagen se muestra un modelo de IA multimodal. El modelo incluye los siguientes componentes:
Un usuario envía audio/vídeo a texto en el modelo. Flujos de texto de Speech a Text para el LLM en OCI.
El texto fluye del LLM en OCI al texto al habla y, a continuación, el audio/vídeo fluye al usuario.