Applications hébergées
Une application est une ressource OCI qui définit la façon dont un workload d'IA générative hébergé s'exécute et comment il est accessible. Les applications centralisent les paramètres opérationnels tels que le redimensionnement automatique, le stockage géré, la mise en réseau et l'authentification. Les déploiements hébergés créés dans une application héritent de ces paramètres.
Une application est une ressource OCI qui définit la façon dont un workload d'IA générative hébergé s'exécute et comment il est accessible. Les applications centralisent les paramètres opérationnels tels que le redimensionnement automatique, le stockage géré, la mise en réseau et l'authentification. Les déploiements hébergés créés dans une application héritent de ces paramètres.
Un paramètre d'application peut inclure :
- Paramètres de redimensionnement pour les déploiements hébergés (répliques minimum et maximum et mesure de redimensionnement automatique)
- Options de stockage géré et variables d'environnement d'exécution
- Paramètres de mise en réseau pour le trafic sortant (sortant) et l'accès aux adresses
- Paramètres d'authentification utilisant un domaine d'identité
Redimensionnement
Les paramètres de redimensionnement définissent la façon dont les déploiements hébergés associés à une application ajoutent ou enlèvent des répliques pour gérer le chargement. Vous définissez un nombre minimal et maximal de répliques et sélectionnez une mesure de redimensionnement automatique, telle que les demandes simultanées, les demandes par seconde (RPS), l'utilisation de l'UC ou l'utilisation de la mémoire.
Variables d'exécution et de stockage gérées
Le stockage géré fournit des options de stockage avec conservation de statut gérées par le service qui peuvent être utilisées par les déploiements hébergés associés à une application. Lorsque cette option est activée, les détails de connexion sont fournis au conteneur via des variables d'environnement.
Vous pouvez également définir d'autres variables d'exécution qui sont injectées dans le conteneur lors de l'exécution.
Authentification
Les paramètres d'authentification contrôlent la façon dont les demandes sont authentifiées avant leur acheminement vers le déploiement hébergé. Les applications prennent en charge l'authentification OAuth 2.0 via un domaine d'identité. Reportez-vous à Configuration de l'authentification pour la prise en charge d'Agentic
Mise en réseau
Les paramètres de mise en réseau contrôlent la manière dont les déploiements hébergés associés à une application acheminent le trafic sortant (sortant) et dont le déploiement actif est accessible via une adresse publique ou privée.
Par défaut, chaque application déployée est configurée avec un accès sortant au réseau Internet public. Cela permet aux workloads des agents d'atteindre des ressources externes telles que des serveurs MCP publics, des API tierces, des adresses de modèles de base et d'autres outils hébergés sur Internet requis pour les workflows d'IA classiques.
Une application peut également fonctionner en mode de mise en réseau client. Pour cette option, vous indiquez un sous-réseau cible au sein d'un VCN dans la location. La plate-forme établit ensuite une connexion réseau privée sécurisée entre la charge globale de l'agent et le sous-réseau sélectionné à l'aide d'un mécanisme d'adresse privée/d'adresse de connexion inverse (PE/RCE).
Une fois activé, tout le trafic sortant (sortant) de l'agent est acheminé via le sous-réseau spécifié par le client. Dans ce cas :
- L'agent peut accéder en toute sécurité aux ressources privées de votre réseau (par exemple, bases de données, instances Compute, services internes).
- Le trafic reste dans les limites du réseau privé.
- Les contrôles de sécurité réseau tels que les groupes de sécurité réseau, les tables de routage et les pare-feu de votre VCN régissent la connectivité sortante.
- La sortie d'Internet public peut être restreinte ou désactivée conformément aux exigences de sécurité de l'entreprise.
Ce modèle offre une flexibilité pour prendre en charge à la fois les charges de travail d'IA Internet et les déploiements entièrement privés et intégrés à l'entreprise, tout en maintenant des limites d'isolement réseau claires entre la plate-forme et les environnements client.
Adresses
Par défaut, chaque application déployée est provisionnée avec une adresse publique qui permet à vos clients d'appeler l'agent sur Internet, sous réserve de contrôles d'authentification et d'autorisation configurés.
Pour les cas d'utilisation nécessitant un accès réseau privé, vous pouvez créer une adresse privée au sein de la plate-forme d'IA générative. L'adresse privée permet l'appel via une adresse IP privée et une résolution DNS interne. Les clients au sein du réseau privé connecté (par exemple, VCN, sur site via FastConnect/VPN ou réseaux appairés) peuvent ensuite appeler l'agent à l'aide du nom de domaine qualifié complet de l'adresse privée.
Ce paramétrage permet :
- Élimination de l'exposition publique à Internet
- Confinement du trafic dans les limites du réseau privé
- Alignement sur les exigences de sécurité et de conformité des réseaux d'entreprise
Protocoles de transport pris en charge
Une fois qu'un agent est déployé, les clients l'appellent via l'adresse provisionnée. Le protocole de transport dépend de l'implémentation du serveur d'agent et du modèle d'interaction requis (demande/réponse, transmission en continu ou sessions bidirectionnelles).
Les protocoles pris en charge incluent :
protocole HTTP
HTTP est le modèle d'appel le plus pris en charge.
- Modèle d'interaction : demande/réponse sans conservation de statut
- Transport : HTTP/1.1 ou HTTP/2 sur TLS
- Cas d'utilisation : appels d'API synchrones et demandes d'inférence de courte durée
Dans ce mode, le client envoie une demande HTTP (généralement POST avec une charge utile JSON). Le serveur renvoie une seule réponse une fois le traitement terminé.
SSE (événements envoyés par le serveur)
Server-Sent Events (SSE) est un protocole de transmission en continu unidirectionnel basé sur HTTP.
- Modèle d'interaction : client à serveur (demande unique), serveur à client (réponse en flux)
- Transport : HTTP avec
Content-Type: text/event-stream - Cas d'utilisation : réponses Streaming (par exemple, sortie jeton par jeton)
Dans ce mode, le client envoie une demande et le serveur garde la connexion ouverte tout en diffusant les résultats incrémentiels en tant qu'événements.
Socket Web (diffusion en continu duplex intégral)
WebSocket fournit une communication bidirectionnelle persistante entre le client et le serveur.
- Modèle d'interaction : duplex complet (le client et le serveur peuvent envoyer des messages à tout moment)
- Transport : protocole WebSocket (
wss://) - Cas d'utilisation : agents interactifs, exécution d'outils en temps réel et sessions multi-tours
Après l'établissement de liaison de mise à niveau HTTP initial, la connexion reste ouverte, ce qui permet l'échange de messages bidirectionnel sur un canal persistant.
Stockage géré
Les agents d'IA ont besoin de services avec conservation de statut pour prendre en charge la mémoire à court terme, les points de reprise, la mise en cache et le stockage de contexte. Pour simplifier les opérations et réduire la surcharge de gestion, la plate-forme fournit un stockage entièrement géré pour les applications hébergées.
Lors du déploiement d'un agent, vous pouvez sélectionner au moins l'une des options de stockage géré suivantes :
- PostgreSQL
- Cache OCI
- Oracle Autonomous Database
Ces services de stockage sont provisionnés et configurés automatiquement pour votre application.
Fonctionnement du stockage géré
Le stockage géré diffère du stockage que vous provisionnez directement dans votre propre location.
- Déploiement géré par le service : le stockage géré est déployé dans la location de service, et non dans votre location. Il n'est accessible que par l'application hébergée associée et n'est pas exposé pour un accès externe direct (par exemple, via des clients de base de données locaux ou des adresses publiques).
- Accès de niveau application : seule l'application déployée spécifique peut accéder à son instance de stockage géré. L'accès est contrôlé en interne par la plate-forme et vous n'avez pas besoin de configurer la mise en réseau, l'authentification ou les informations d'identification manuellement.
- Intégration du cycle de vie : le stockage géré est étroitement associé au cycle de vie de votre agent :
- Lorsque vous déployez un agent, le stockage est automatiquement créé.
- Lorsque vous redimensionnez l'agent, le stockage est adapté en conséquence (si pris en charge).
- Lorsque vous supprimez l'agent, le stockage associé est également supprimé.
- Aucune administration de niveau DBA : le stockage étant entièrement géré par la plate-forme :
- Vous ne disposez pas des droits d'accès de niveau DBA.
- Vous ne pouvez pas accéder à l'infrastructure sous-jacente.
Une fois l'agent supprimé, le stockage géré est définitivement enlevé et ne peut pas être récupéré.
Quand utiliser le stockage géré par le client
Dans certains scénarios, vous pouvez avoir besoin des éléments suivants :
- Stockage dont le cycle de vie est indépendant de l'agent
- Contrôle administratif complet de la configuration de la base de données
- Accès direct à partir d'autres systèmes ou outils
- Extensions personnalisées, réglage ou partage entre applications
Dans ces cas, vous pouvez provisionner des ressources de stockage dans votre propre VCN et location. Configurez ensuite l'agent pour qu'il se connecte à ces ressources à l'aide du mode de mise en réseau client (décrit dans la section précédente).
Cette option offre une flexibilité maximale tout en vous permettant de garder un contrôle total sur votre infrastructure.
Limites
Pour connaître le nombre maximal d'applications ou d'artefacts autorisés par location, reportez-vous à Limites d'application.
Gérer
Pour créer et répertorier des applications, vous pouvez effectuer les tâches suivantes :