Aplicaciones Alojadas
Una aplicación es un recurso de OCI que define cómo se ejecuta una carga de trabajo de IA generativa alojada y cómo se accede a ella. Las aplicaciones centralizan la configuración operativa, como la ampliación automática, el almacenamiento gestionado, las redes y la autenticación. Los despliegues alojados creados en una aplicación heredan esta configuración.
Una aplicación es un recurso de OCI que define cómo se ejecuta una carga de trabajo de IA generativa alojada y cómo se accede a ella. Las aplicaciones centralizan la configuración operativa, como la ampliación automática, el almacenamiento gestionado, las redes y la autenticación. Los despliegues alojados creados en una aplicación heredan esta configuración.
Una configuración de aplicación puede incluir:
- Configuración de escala para despliegues alojados (mínimo y máximo de réplicas y métrica de escala automática)
- Opciones de almacenamiento gestionado y variables de entorno de tiempo de ejecución
- Configuración de red para el tráfico saliente (salida) y el acceso al punto final
- Configuración de autenticación mediante un dominio de identidad
Escalado
La configuración de escala define cómo los despliegues alojados asociados a una aplicación agregan o eliminan réplicas para manejar la carga. Puede definir un número mínimo y máximo de réplicas y seleccionar una métrica de escala automática, como solicitudes simultáneas, solicitudes por segundo (RPS), uso de CPU o uso de memoria.
Variables de tiempo de ejecución y almacenamiento gestionados
El almacenamiento gestionado proporciona opciones de almacenamiento con estado gestionadas por servicios que pueden utilizar los despliegues alojados asociados a una aplicación. Cuando está activada, los detalles de conexión se proporcionan al contenedor mediante variables de entorno.
También puede definir otras variables de tiempo de ejecución que se inyectan en el contenedor en tiempo de ejecución.
Autenticación
La configuración de autenticación controla cómo se autentican las solicitudes antes de que se enruten al despliegue alojado. Las aplicaciones soportan la autenticación OAuth 2.0 mediante un dominio de identidad. Consulte Configuración de la autenticación para el soporte de Agentic
Redes
La configuración de red controla cómo los despliegues alojados asociados a una aplicación direccionan el tráfico saliente (salida) y cómo se accede al despliegue activo a través de un punto final público o privado.
Por defecto, cada aplicación desplegada se configura con acceso saliente a la red pública de Internet. Esto permite que las cargas de trabajo de los agentes lleguen a recursos externos, como servidores MCP públicos, API de terceros, puntos finales de modelos básicos y otras herramientas alojadas en Internet necesarias para los flujos de trabajo de IA típicos.
Una aplicación también puede funcionar en el modo de red del cliente. Para esta opción, debe especificar una subred de destino dentro de una VCN del arrendamiento. A continuación, la plataforma establece una conexión de red privada segura entre la carga de trabajo del agente y la subred seleccionada mediante un mecanismo de punto final privado/punto final de conexión inversa (PE/RCE).
Una vez activado, todo el tráfico saliente (de salida) del agente se enruta a través de la subred especificada por el cliente. Como resultado:
- El agente puede acceder de forma segura a los recursos privados de la red (por ejemplo, bases de datos, instancias informáticas o servicios internos).
- El tráfico permanece dentro de los límites de la red privada.
- Los controles de seguridad de red, como los grupos de seguridad de red, (NSG), las tablas de rutas y los firewalls de la VCN, controlan la conectividad saliente.
- La salida de Internet pública se puede restringir o desactivar según los requisitos de seguridad de la empresa.
Este modelo proporciona flexibilidad para admitir cargas de trabajo de IA orientadas a Internet y despliegues totalmente privados e integrados en la empresa, al tiempo que mantiene límites claros de aislamiento de red entre la plataforma y los entornos de los clientes.
Puntos finales
Por defecto, cada aplicación desplegada se aprovisiona con un punto final público que permite a los clientes llamar al agente a través de Internet, sujeto a controles de autenticación y autorización configurados.
Para los casos de uso que requieren acceso a la red privada, puede crear un punto final privado (PE) dentro de la plataforma GenAI. El punto final privado permite la llamada mediante una dirección IP privada y una resolución de DNS interna. Los clientes de la red privada conectada (por ejemplo, VCN, local mediante FastConnect/VPN o redes con intercambio de tráfico) pueden llamar al agente mediante el nombre de dominio completo (FQDN) del punto final privado.
Esta configuración permite:
- Eliminación de la exposición pública a Internet
- Limitación del tráfico dentro de los límites de la red privada
- Alineación con los requisitos de conformidad y seguridad de la red empresarial
Protocolos de Transporte Soportados
Después de desplegar un agente, los clientes lo llaman a través del punto final aprovisionado. El protocolo de transporte depende de la implantación del servidor del agente y del modelo de interacción necesario (sesiones de solicitud/respuesta, transmisión o bidireccionales).
Los protocolos compatibles incluyen:
HTTP
HTTP es el modelo de llamada más soportado.
- Modelo de interacción: solicitud/respuesta sin estado
- Transporte: HTTP/1.1 o HTTP/2 mediante TLS
- Caso de uso: llamadas de API síncronas y solicitudes de inferencia de corta duración
En este modo, el cliente envía una solicitud HTTP (normalmente POST con una carga útil de JSON). El servidor devuelve una única respuesta una vez finalizado el procesamiento.
SSE (Eventos enviados por el servidor)
Server-Sent Events (SSE) es un protocolo de transmisión unidireccional basado en HTTP.
- Modelo de interacción: cliente a servidor (solicitud única), servidor a cliente (respuesta transmitida)
- Transporte: HTTP con
Content-Type: text/event-stream - Caso de uso: respuestas de Streaming (por ejemplo, salida token por token)
En este modo, el cliente envía una solicitud y el servidor mantiene la conexión abierta mientras se transmiten resultados incrementales como eventos.
WebSocket (Full Duplex Streaming)
WebSocket proporciona comunicación bidireccional y persistente entre el cliente y el servidor.
- Modelo de interacción: dúplex completo (el cliente y el servidor pueden enviar mensajes en cualquier momento)
- Transporte: protocolo WebSocket (
wss://) - Caso de uso: agentes interactivos, ejecución de herramientas en tiempo real y sesiones con varias vueltas
Después del establecimiento de comunicación de actualización HTTP inicial, la conexión permanece abierta, lo que permite el intercambio de mensajes bidireccional a través de un canal persistente.
Almacenamiento gestionado
Los agentes de IA requieren servicios con estado para admitir memoria a corto plazo, puntos de control, almacenamiento en caché y almacenamiento contextual. Para simplificar las operaciones y reducir la sobrecarga de gestión, la plataforma proporciona almacenamiento totalmente gestionado para aplicaciones alojadas.
Al desplegar un agente, puede seleccionar una o más de las siguientes opciones de almacenamiento gestionado:
- PostgreSQL
- Caché de OCI
- Oracle Autonomous Database
Estos servicios de almacenamiento se aprovisionan y configuran automáticamente para su aplicación.
Funcionamiento del almacenamiento gestionado
El almacenamiento gestionado difiere del almacenamiento que aprovisiona directamente en su propio arrendamiento.
- Despliegue gestionado por servicio: el almacenamiento gestionado se despliega en el arrendamiento de servicio, no en su arrendamiento. Solo la aplicación alojada asociada puede acceder a ella y no se expone para el acceso externo directo (por ejemplo, a través de clientes de base de datos locales o puntos finales públicos).
- Acceso de ámbito de aplicación: solo la aplicación desplegada específica puede acceder a su instancia de almacenamiento gestionado. El acceso es controlado internamente por la plataforma, y no es necesario que configure las redes, la autenticación o las credenciales manualmente.
- Integración del ciclo de vida: el almacenamiento gestionado está estrechamente vinculado con el ciclo de vida de su agente:
- Al desplegar un agente, el almacenamiento se crea automáticamente.
- Al escalar el agente, el almacenamiento se escala según corresponda (cuando esté soportado).
- Al suprimir el agente, también se suprime el almacenamiento asociado.
- Sin administración de nivel de DBA: debido a que la plataforma gestiona completamente el almacenamiento:
- No tiene permisos de nivel de DBA.
- No puede acceder a la infraestructura subyacente.
Una vez que se suprime el agente, el almacenamiento gestionado se elimina permanentemente y no se puede recuperar.
Cuándo Utilizar el Almacenamiento Gestionado por el Cliente
En algunos escenarios, puede que necesite:
- Almacenamiento cuyo ciclo de vida es independiente del agente
- Control administrativo completo de la configuración de la base de datos
- Acceso directo desde otros sistemas o herramientas
- Extensiones personalizadas, ajuste o uso compartido entre aplicaciones
En estos casos, puede aprovisionar recursos de almacenamiento en su propia VCN y arrendamiento. A continuación, configure el agente para que se conecte a esos recursos mediante el modo de red del cliente (descrito en la sección anterior).
Esta opción proporciona la máxima flexibilidad, al tiempo que permite mantener el control total sobre la infraestructura.
Límites
Para conocer los límites, como el número de aplicaciones o artefactos permitidos por arrendamiento, consulte Límites de aplicación
Gestionar
Puede realizar las siguientes tareas para crear y mostrar aplicaciones: