Visión general del despliegue de agentes en OCI Generative AI
Puede desplegar agentes mediante OCI Generative AI Applications, que proporcionan un tiempo de ejecución gestionado para cargas de trabajo de agentes en contenedores.
Para desplegar un agente, empaquetarlo como una imagen de contenedor, cargarlo en Oracle Cloud Infrastructure Registry (OCIR) y desplegarlo mediante la consola, la API o la CLI de OCI.
Durante el despliegue, configure:
- Escalado
- Almacenamiento
- Redes
- Autenticación
Después del despliegue, el servicio aprovisiona un punto final (por ejemplo, una URL HTTP) que los clientes u otros agentes pueden utilizar para llamar al agente.
Cómo Funciona
Después de desarrollar un agente localmente (por ejemplo, mediante LangGraph o marcos similares), cree una aplicación de IA generativa para definir la configuración de tiempo de ejecución.
A continuación, puede crear un despliegue seleccionando una imagen de contenedor. El despliegue activo sirve solicitudes a través del punto final de la aplicación. Una vez aprovisionado el despliegue, el punto final pasa a estar disponible para llamar al agente.
Tutorial
Utiliza aplicaciones de IA generativa para desplegar agentes como aplicaciones en contenedores gestionadas en OCI Generative AI.
Con las aplicaciones de IA generativa, puedes crear una imagen de contenedor, cargarla en Oracle Cloud Infrastructure Registry (OCIR) y desplegar esa imagen como una aplicación de IA generativa mediante la consola, la API o la CLI de OCI.
Al desplegar un agente, puede configurar cómo se ejecuta la aplicación y cómo acceden los clientes a ella, incluidos:
- Escalado
- Almacenamiento
- Redes
- Autenticación
Una vez aprovisionado el despliegue, OCI Generative AI proporciona un punto final, como una URL HTTP, que los clientes pueden utilizar para llamar al agente desplegado.
El despliegue de un agente es útil cuando desea un tiempo de ejecución gestionado para una aplicación de agente en contenedores, con configuración de despliegue y aprovisionamiento de punto final gestionados por OCI.
Para obtener más información, consulte los temas sobre las aplicaciones de IA generativa y el despliegue de aplicaciones de agente en contenedores.
Comparación de aplicaciones con otras opciones de despliegue de OCI Container
Compare las aplicaciones de IA generativa con OCI Container Instances y Oracle Kubernetes Engine (OKE).
Las aplicaciones de OCI Generative AI proporcionan una opción de despliegue gestionada para aplicaciones y servidores MCP. En las siguientes tablas se comparan con otras soluciones de despliegue de contenedores de OCI.
Comparación de aplicaciones de IA generativa con OCI Container Instances
| Capacidad | Aplicaciones de GenAI | OCI Container Instances |
|---|---|---|
| Uso principal | Servicios web, especialmente aplicaciones y servidores MCP | Trabajos por lotes, scripts y trabajadores |
| Modelo de disparador | HTTP o controlado por eventos | Manual, basado en API o programado |
| Escalado | Escalabilidad automática de 0 a muchas instancias | Sin ampliación automática incorporada |
| Escalar a cero | Sí | No automático |
| Equilibrio de carga | Incorporado | Gestionado por el usuario |
| Nivel de abstracción | Despliegue de nivel superior sin servidor | Ejecución de contenedores de nivel inferior |
| Modelo de inicio | Inicio rápido y basado en solicitudes | Comienza como una máquina virtual pequeña |
| Redes | Puntos finales HTTPS gestionados | Control a nivel de VCN |
Comparación de aplicaciones de IA generativa con OKE
| Capacidad | Aplicaciones de GenAI | OKE |
|---|---|---|
| Gastos generales de operaciones | Baja | Alta |
| Escalado | Escalado automático de 0 a N | Configurable con HPA y escala automática de cluster |
| Escalar a cero | Sí | No nativo |
| Despliegue | Simple, transfiriendo una imagen de contenedor | Más complejo, con manifiestos y gráficos de Helm |
| Control | Limitado | Control completo |
| Redes | Totalmente gestionado | Totalmente personalizables |
| Casos prácticos | API y servicios sin estado | Sistemas distribuidos complejos |
Protocolos de Transporte Soportados
En OCI Generative AI, después de desplegar un agente, los clientes pueden llamar a este mediante el punto final aprovisionado. El protocolo de transporte depende de la implantación del servidor del agente y del modelo de interacción necesario (sesiones de solicitud/respuesta, transmisión o bidireccionales).
Los protocolos compatibles incluyen:
HTTP
HTTP es el modelo de llamada más soportado.
- Modelo de interacción: solicitud/respuesta sin estado
- Transporte: HTTP/1.1 o HTTP/2 mediante TLS
- Caso de uso: llamadas de API síncronas y solicitudes de inferencia de corta duración
En este modo, el cliente envía una solicitud HTTP (normalmente POST con una carga útil de JSON). El servidor devuelve una única respuesta una vez finalizado el procesamiento.
SSE (Eventos enviados por el servidor)
Server-Sent Events (SSE) es un protocolo de transmisión unidireccional basado en HTTP.
- Modelo de interacción: cliente a servidor (solicitud única), servidor a cliente (respuesta transmitida)
- Transporte: HTTP con
Content-Type: text/event-stream - Caso de uso: respuestas de Streaming (por ejemplo, salida token por token)
En este modo, el cliente envía una solicitud y el servidor mantiene la conexión abierta mientras se transmiten resultados incrementales como eventos.
WebSocket (Full Duplex Streaming)
WebSocket proporciona comunicación bidireccional y persistente entre el cliente y el servidor.
- Modelo de interacción: dúplex completo (el cliente y el servidor pueden enviar mensajes en cualquier momento)
- Transporte: protocolo WebSocket (
wss://) - Caso de uso: agentes interactivos, ejecución de herramientas en tiempo real y sesiones con varias vueltas
Después del establecimiento de comunicación de actualización HTTP inicial, la conexión permanece abierta, lo que permite el intercambio de mensajes bidireccional a través de un canal persistente.
Autenticación
Configura la autenticación de entrada para controlar el acceso a los agentes y la autenticación de salida para acceder de forma segura a los recursos de OCI.
Las aplicaciones soportan la autenticación OAuth 2.0 mediante un dominio de identidad. Consulte Configuración de la autenticación para el soporte de Agentic
Autenticación de entrada
La autenticación de entrada controla quién puede acceder a los agentes mediante la validación de tokens de proveedores de identidad antes de enrutar solicitudes a agentes alojados.
OCI Generative AI soporta OAuth 2.0 para la autenticación de entrada, integrada con proveedores de identidad como Oracle Identity Cloud Service (IDCS). Consulte Configuración de autenticación para la compatibilidad con Agentic.
Autenticación de salida
Con la autenticación saliente, las aplicaciones de agente desplegadas pueden acceder de forma segura a otros recursos de OCI dentro de un arrendamiento.
El acceso se otorga mediante la definición de políticas de OCI IAM que autorizan a la aplicación de agente (como entidad de recurso) a realizar acciones específicas en los recursos especificados. Estas políticas deciden el ámbito de acceso según el principio de privilegio mínimo.
Después del despliegue, la plataforma aprovisiona automáticamente un token de sesión de principal de recurso (RPST) para la carga de trabajo del agente. El RPST se inyecta de forma segura en el tiempo de ejecución del contenedor, lo que permite a la aplicación autenticarse en los servicios de OCI sin utilizar credenciales de larga duración como claves de API o tokens de usuario.
En el contenedor, el agente utiliza el SDK de OCI con el proveedor de autenticación de la entidad de recurso. El SDK recupera y refresca automáticamente el RPST, lo que permite un acceso seguro a servicios de OCI autorizados como Object Storage, Autonomous Database, Vault y Streaming.
Redes para despliegues
En OCI Generative AI, por defecto, las aplicaciones desplegadas tienen acceso saliente a la red pública de Internet. Esto permite a las cargas de trabajo de agentes acceder a recursos externos, como servidores MCP públicos, API de terceros, puntos finales de modelos básicos y otros servicios alojados en Internet.
Para redes privadas, puede activar el modo de red del cliente. En este modo, puede especificar una subred de destino en una VCN de su arrendamiento. La plataforma establece una conexión segura entre la carga de trabajo del agente y la subred mediante un punto final privado/punto final de conexión inversa (PE/RCE).
Cuando está activada, todo el tráfico saliente (de salida) del agente se enruta a través de la subred especificada. Esto permite:
- Acceso seguro a recursos privados en la red (por ejemplo, bases de datos, instancias informáticas y servicios internos)
- Tráfico para permanecer dentro de los límites de la red privada
- Controles de seguridad de red, como grupos de seguridad de red (NSG), tablas de rutas y firewalls para controlar la conectividad saliente
- Restricción o desactivación del acceso público a Internet, según sus requisitos de seguridad
Este modelo admite cargas de trabajo orientadas a Internet y despliegues privados e integrados en la empresa, al tiempo que mantiene un aislamiento claro de la red entre la plataforma y el entorno.
Almacenamiento gestionado
Las cargas de trabajo de los agentes suelen requerir servicios con estado para admitir memoria a corto plazo, puntos de control, almacenamiento en caché y almacenamiento contextual. Para simplificar las operaciones, OCI Generative AI proporciona servicios de almacenamiento totalmente gestionados para los agentes desplegados.
Al desplegar un agente, puede seleccionar una o más de las siguientes opciones de almacenamiento gestionado:
- PostgreSQL
- OCI Cache
- Oracle Autonomous Database
Estos servicios se aprovisionan y configuran automáticamente para su aplicación.
Funcionamiento del almacenamiento gestionado
El almacenamiento gestionado difiere del almacenamiento que aprovisiona en su propio arrendamiento:
-
Despliegue gestionado por servicios
El almacenamiento se aprovisiona en el arrendamiento del servicio y no se expone para el acceso externo directo (por ejemplo, a través de clientes de base de datos o puntos finales públicos).
-
Acceso con ámbito de aplicación
Solo la aplicación desplegada asociada puede acceder a su almacenamiento. El acceso lo gestiona la plataforma, por lo que no es necesaria ninguna configuración manual de credenciales ni de redes.
-
Integración del ciclo de vida
El almacenamiento está vinculado al ciclo de vida del agente:- Se crea cuando se despliega el agente
- Escala con la aplicación (cuando sea compatible)
- Se suprime cuando se suprime el agente
-
Sin gestión administrativa
La plataforma gestiona la infraestructura de almacenamiento. No tiene acceso a nivel de DBA ni control sobre los recursos subyacentes.
Cuando se suprime un agente, el almacenamiento gestionado se elimina permanentemente y no se puede recuperar.
Cuándo Utilizar el Almacenamiento Gestionado por el Cliente
Utilice el almacenamiento gestionado por el cliente cuando necesite:
- Ciclo de vida de almacenamiento independiente
- Control administrativo completo
- Acceso directo desde sistemas o herramientas externos
- Configuración personalizada, extensiones o acceso compartido entre aplicaciones
En estos casos, aprovisione el almacenamiento en su propia VCN y arrendamiento, y configure el agente para que se conecte a él mediante el modo de red del cliente.
Este enfoque proporciona una mayor flexibilidad y control sobre su infraestructura.