Visión general del despliegue de agentes en OCI Generative AI

Puede desplegar agentes mediante OCI Generative AI Applications, que proporcionan un tiempo de ejecución gestionado para cargas de trabajo de agentes en contenedores.

Para desplegar un agente, empaquetarlo como una imagen de contenedor, cargarlo en Oracle Cloud Infrastructure Registry (OCIR) y desplegarlo mediante la consola, la API o la CLI de OCI.

Durante el despliegue, configure:

  • Escalado
  • Almacenamiento
  • Redes
  • Autenticación

Después del despliegue, el servicio aprovisiona un punto final (por ejemplo, una URL HTTP) que los clientes u otros agentes pueden utilizar para llamar al agente.

Cómo Funciona

Después de desarrollar un agente localmente (por ejemplo, mediante LangGraph o marcos similares), cree una aplicación de IA generativa para definir la configuración de tiempo de ejecución.

A continuación, puede crear un despliegue seleccionando una imagen de contenedor. El despliegue activo sirve solicitudes a través del punto final de la aplicación. Una vez aprovisionado el despliegue, el punto final pasa a estar disponible para llamar al agente.

Tutorial

Utiliza aplicaciones de IA generativa para desplegar agentes como aplicaciones en contenedores gestionadas en OCI Generative AI.

Con las aplicaciones de IA generativa, puedes crear una imagen de contenedor, cargarla en Oracle Cloud Infrastructure Registry (OCIR) y desplegar esa imagen como una aplicación de IA generativa mediante la consola, la API o la CLI de OCI.

Al desplegar un agente, puede configurar cómo se ejecuta la aplicación y cómo acceden los clientes a ella, incluidos:

  • Escalado
  • Almacenamiento
  • Redes
  • Autenticación

Una vez aprovisionado el despliegue, OCI Generative AI proporciona un punto final, como una URL HTTP, que los clientes pueden utilizar para llamar al agente desplegado.

El despliegue de un agente es útil cuando desea un tiempo de ejecución gestionado para una aplicación de agente en contenedores, con configuración de despliegue y aprovisionamiento de punto final gestionados por OCI.

Para obtener más información, consulte los temas sobre las aplicaciones de IA generativa y el despliegue de aplicaciones de agente en contenedores.

Comparación de aplicaciones con otras opciones de despliegue de OCI Container

Compare las aplicaciones de IA generativa con OCI Container Instances y Oracle Kubernetes Engine (OKE).

Las aplicaciones de OCI Generative AI proporcionan una opción de despliegue gestionada para aplicaciones y servidores MCP. En las siguientes tablas se comparan con otras soluciones de despliegue de contenedores de OCI.

Comparación de aplicaciones de IA generativa con OCI Container Instances

Capacidad Aplicaciones de GenAI OCI Container Instances
Uso principal Servicios web, especialmente aplicaciones y servidores MCP Trabajos por lotes, scripts y trabajadores
Modelo de disparador HTTP o controlado por eventos Manual, basado en API o programado
Escalado Escalabilidad automática de 0 a muchas instancias Sin ampliación automática incorporada
Escalar a cero No automático
Equilibrio de carga Incorporado Gestionado por el usuario
Nivel de abstracción Despliegue de nivel superior sin servidor Ejecución de contenedores de nivel inferior
Modelo de inicio Inicio rápido y basado en solicitudes Comienza como una máquina virtual pequeña
Redes Puntos finales HTTPS gestionados Control a nivel de VCN

Comparación de aplicaciones de IA generativa con OKE

Capacidad Aplicaciones de GenAI OKE
Gastos generales de operaciones Baja Alta
Escalado Escalado automático de 0 a N Configurable con HPA y escala automática de cluster
Escalar a cero No nativo
Despliegue Simple, transfiriendo una imagen de contenedor Más complejo, con manifiestos y gráficos de Helm
Control Limitado Control completo
Redes Totalmente gestionado Totalmente personalizables
Casos prácticos API y servicios sin estado Sistemas distribuidos complejos

Protocolos de Transporte Soportados

En OCI Generative AI, después de desplegar un agente, los clientes pueden llamar a este mediante el punto final aprovisionado. El protocolo de transporte depende de la implantación del servidor del agente y del modelo de interacción necesario (sesiones de solicitud/respuesta, transmisión o bidireccionales).

Los protocolos compatibles incluyen:

HTTP

HTTP es el modelo de llamada más soportado.

  • Modelo de interacción: solicitud/respuesta sin estado
  • Transporte: HTTP/1.1 o HTTP/2 mediante TLS
  • Caso de uso: llamadas de API síncronas y solicitudes de inferencia de corta duración

En este modo, el cliente envía una solicitud HTTP (normalmente POST con una carga útil de JSON). El servidor devuelve una única respuesta una vez finalizado el procesamiento.

SSE (Eventos enviados por el servidor)

Server-Sent Events (SSE) es un protocolo de transmisión unidireccional basado en HTTP.

  • Modelo de interacción: cliente a servidor (solicitud única), servidor a cliente (respuesta transmitida)
  • Transporte: HTTP con Content-Type: text/event-stream
  • Caso de uso: respuestas de Streaming (por ejemplo, salida token por token)

En este modo, el cliente envía una solicitud y el servidor mantiene la conexión abierta mientras se transmiten resultados incrementales como eventos.

WebSocket (Full Duplex Streaming)

WebSocket proporciona comunicación bidireccional y persistente entre el cliente y el servidor.

  • Modelo de interacción: dúplex completo (el cliente y el servidor pueden enviar mensajes en cualquier momento)
  • Transporte: protocolo WebSocket (wss://)
  • Caso de uso: agentes interactivos, ejecución de herramientas en tiempo real y sesiones con varias vueltas

Después del establecimiento de comunicación de actualización HTTP inicial, la conexión permanece abierta, lo que permite el intercambio de mensajes bidireccional a través de un canal persistente.

Autenticación

Configura la autenticación de entrada para controlar el acceso a los agentes y la autenticación de salida para acceder de forma segura a los recursos de OCI.

Las aplicaciones soportan la autenticación OAuth 2.0 mediante un dominio de identidad. Consulte Configuración de la autenticación para el soporte de Agentic

Autenticación de entrada

La autenticación de entrada controla quién puede acceder a los agentes mediante la validación de tokens de proveedores de identidad antes de enrutar solicitudes a agentes alojados.

OCI Generative AI soporta OAuth 2.0 para la autenticación de entrada, integrada con proveedores de identidad como Oracle Identity Cloud Service (IDCS). Consulte Configuración de autenticación para la compatibilidad con Agentic.

Autenticación de salida

Con la autenticación saliente, las aplicaciones de agente desplegadas pueden acceder de forma segura a otros recursos de OCI dentro de un arrendamiento.

El acceso se otorga mediante la definición de políticas de OCI IAM que autorizan a la aplicación de agente (como entidad de recurso) a realizar acciones específicas en los recursos especificados. Estas políticas deciden el ámbito de acceso según el principio de privilegio mínimo.

Después del despliegue, la plataforma aprovisiona automáticamente un token de sesión de principal de recurso (RPST) para la carga de trabajo del agente. El RPST se inyecta de forma segura en el tiempo de ejecución del contenedor, lo que permite a la aplicación autenticarse en los servicios de OCI sin utilizar credenciales de larga duración como claves de API o tokens de usuario.

En el contenedor, el agente utiliza el SDK de OCI con el proveedor de autenticación de la entidad de recurso. El SDK recupera y refresca automáticamente el RPST, lo que permite un acceso seguro a servicios de OCI autorizados como Object Storage, Autonomous Database, Vault y Streaming.

Redes para despliegues

En OCI Generative AI, por defecto, las aplicaciones desplegadas tienen acceso saliente a la red pública de Internet. Esto permite a las cargas de trabajo de agentes acceder a recursos externos, como servidores MCP públicos, API de terceros, puntos finales de modelos básicos y otros servicios alojados en Internet.

Para redes privadas, puede activar el modo de red del cliente. En este modo, puede especificar una subred de destino en una VCN de su arrendamiento. La plataforma establece una conexión segura entre la carga de trabajo del agente y la subred mediante un punto final privado/punto final de conexión inversa (PE/RCE).

Cuando está activada, todo el tráfico saliente (de salida) del agente se enruta a través de la subred especificada. Esto permite:

  • Acceso seguro a recursos privados en la red (por ejemplo, bases de datos, instancias informáticas y servicios internos)
  • Tráfico para permanecer dentro de los límites de la red privada
  • Controles de seguridad de red, como grupos de seguridad de red (NSG), tablas de rutas y firewalls para controlar la conectividad saliente
  • Restricción o desactivación del acceso público a Internet, según sus requisitos de seguridad

Este modelo admite cargas de trabajo orientadas a Internet y despliegues privados e integrados en la empresa, al tiempo que mantiene un aislamiento claro de la red entre la plataforma y el entorno.

Almacenamiento gestionado

Las cargas de trabajo de los agentes suelen requerir servicios con estado para admitir memoria a corto plazo, puntos de control, almacenamiento en caché y almacenamiento contextual. Para simplificar las operaciones, OCI Generative AI proporciona servicios de almacenamiento totalmente gestionados para los agentes desplegados.

Al desplegar un agente, puede seleccionar una o más de las siguientes opciones de almacenamiento gestionado:

  • PostgreSQL
  • OCI Cache
  • Oracle Autonomous Database

Estos servicios se aprovisionan y configuran automáticamente para su aplicación.

Funcionamiento del almacenamiento gestionado

El almacenamiento gestionado difiere del almacenamiento que aprovisiona en su propio arrendamiento:

  • Despliegue gestionado por servicios

    El almacenamiento se aprovisiona en el arrendamiento del servicio y no se expone para el acceso externo directo (por ejemplo, a través de clientes de base de datos o puntos finales públicos).

  • Acceso con ámbito de aplicación

    Solo la aplicación desplegada asociada puede acceder a su almacenamiento. El acceso lo gestiona la plataforma, por lo que no es necesaria ninguna configuración manual de credenciales ni de redes.

  • Integración del ciclo de vida

    El almacenamiento está vinculado al ciclo de vida del agente:
    • Se crea cuando se despliega el agente
    • Escala con la aplicación (cuando sea compatible)
    • Se suprime cuando se suprime el agente
  • Sin gestión administrativa

    La plataforma gestiona la infraestructura de almacenamiento. No tiene acceso a nivel de DBA ni control sobre los recursos subyacentes.

Importante

Cuando se suprime un agente, el almacenamiento gestionado se elimina permanentemente y no se puede recuperar.

Cuándo Utilizar el Almacenamiento Gestionado por el Cliente

Utilice el almacenamiento gestionado por el cliente cuando necesite:

  • Ciclo de vida de almacenamiento independiente
  • Control administrativo completo
  • Acceso directo desde sistemas o herramientas externos
  • Configuración personalizada, extensiones o acceso compartido entre aplicaciones

En estos casos, aprovisione el almacenamiento en su propia VCN y arrendamiento, y configure el agente para que se conecte a él mediante el modo de red del cliente.

Este enfoque proporciona una mayor flexibilidad y control sobre su infraestructura.