Applications hébergées
Une application est une ressource OCI qui définit l'exécution d'une charge de travail hébergée du service d'intelligence artificielle générative et le mode d'accès à celle-ci. Les applications centralisent les paramètres opérationnels tels que l'ajustement automatique, le stockage géré, le réseau et l'authentification. Les déploiements hébergés créés dans une application héritent de ces paramètres.
Une application est une ressource OCI qui définit l'exécution d'une charge de travail hébergée du service d'intelligence artificielle générative et le mode d'accès à celle-ci. Les applications centralisent les paramètres opérationnels tels que l'ajustement automatique, le stockage géré, le réseau et l'authentification. Les déploiements hébergés créés dans une application héritent de ces paramètres.
Un paramètre d'application peut inclure :
- Paramètres d'ajustement pour les déploiements hébergés (répliques minimales et maximales et mesure d'ajustement automatique)
- Options de stockage gérées et variables d'environnement d'exécution
- Paramètres de réseau pour le trafic sortant (sortant) et l'accès au point d'extrémité
- Paramètres d'authentification à l'aide d'un domaine d'identité
Ajustement
Les paramètres d'ajustement définissent comment les déploiements hébergés associés à une application ajoutent ou suppriment des répliques pour gérer la charge. Vous définissez un nombre minimal et maximal de répliques et sélectionnez une mesure d'ajustement automatique, telle que les demandes concurrentes, les demandes par seconde (RPS), l'utilisation d'UC ou l'utilisation de la mémoire.
Variables de stockage géré et d'exécution
Le stockage géré fournit des options de stockage avec état gérées par le service qui peuvent être utilisées par les déploiements hébergés associés à une application. Lorsque cette option est activée, les détails de connexion sont fournis au conteneur au moyen de variables d'environnement.
Vous pouvez également définir d'autres variables d'exécution qui sont injectées dans le conteneur au moment de l'exécution.
Authentification
Les paramètres d'authentification contrôlent la façon dont les demandes sont authentifiées avant d'être acheminées vers le déploiement hébergé. Les applications prennent en charge l'authentification OAuth 2.0 à l'aide d'un domaine d'identité. Voir Configuration de l'authentification pour la prise en charge Agentic
Réseau
Les paramètres de réseau contrôlent la façon dont les déploiements hébergés associés à une application acheminent le trafic sortant (sortant) et l'accès au déploiement actif au moyen d'un point d'extrémité public ou privé.
Par défaut, chaque application déployée est configurée avec un accès sortant à l'Internet public. Cela permet aux charges de travail d'agent d'atteindre les ressources externes telles que les serveurs MCP publics, les API de tierce partie, les points d'extrémité de modèle de base et d'autres outils hébergés sur Internet requis pour les flux de travail typiques de l'IA.
Une application peut également fonctionner en mode de réseau client. Pour cette option, vous spécifiez un sous-réseau cible dans un VCN de la location. La plate-forme établit ensuite une connexion réseau privée sécurisée entre la charge de travail de l'agent et le sous-réseau sélectionné à l'aide d'un mécanisme Point d'extrémité privé/Point d'extrémité de connexion inverse.
Une fois activée, tout le trafic sortant (sortant) de l'agent est acheminé au moyen du sous-réseau spécifié par le client. Résultat :
- L'agent peut accéder en toute sécurité aux ressources privées de votre réseau (par exemple, bases de données, instances de calcul, services internes).
- Le trafic reste dans les limites du réseau privé.
- Les contrôles de sécurité de réseau tels que les groupes de sécurité de réseau, les tables de routage et les pare-feu de votre VCN régissent la connectivité sortante.
- Le trafic sortant d'Internet public peut être restreint ou désactivé en fonction des exigences de sécurité de l'entreprise.
Ce modèle offre une souplesse permettant de prendre en charge à la fois les charges de travail d'IA tournées vers Internet et les déploiements entièrement privés et intégrés à l'entreprise, tout en maintenant des limites claires d'isolement du réseau entre la plate-forme et les environnements de client.
Points d'extrémité
Par défaut, chaque application déployée est provisionnée avec un point d'extrémité public qui permet à vos clients d'appeler l'agent sur Internet, sous réserve des contrôles d'authentification et d'autorisation configurés.
Pour les cas d'utilisation nécessitant un accès réseau privé, vous pouvez créer un point d'extrémité privé dans la plate-forme GenAI. Le point d'extrémité privé permet l'appel au moyen d'une adresse IP privée et d'une résolution DNS interne. Les clients du réseau privé connecté (par exemple, VCN, sur place au moyen de FastConnect/VPN ou de réseaux appairés) peuvent ensuite appeler l'agent à l'aide du nom de domaine complet du point d'extrémité privé.
Cette configuration permet :
- Élimination de l'exposition publique à l'Internet
- Confinement du trafic dans les limites du réseau privé
- Alignement avec les exigences de conformité et de sécurité du réseau de l'entreprise
Protocoles de transport pris en charge
Après le déploiement d'un agent, les clients l'appellent au moyen du point d'extrémité provisionné. Le protocole de transport dépend de l'implémentation du serveur d'agents et du modèle d'interaction requis (sessions de demande/réponse, de diffusion en continu ou bidirectionnelles).
Les protocoles pris en charge sont les suivants :
HTTP
HTTP est le modèle d'appel le plus pris en charge.
- Modèle d'interaction : Demande/réponse sans état
- Transport : HTTP/1.1 ou HTTP/2 sur TLS
- Cas d'utilisation : Appels d'API synchrones et demandes d'inférence de courte durée
Dans ce mode, le client envoie une demande HTTP (généralement POST avec des données utiles JSON). Le serveur retourne une seule réponse une fois le traitement terminé.
SSE (événements Server-Sent)
Server-Sent Events (SSE) est un protocole de streaming unidirectionnel construit sur HTTP.
- Modèle d'interaction : Client à serveur (demande unique), serveur à client (réponse diffusée)
- Transport : HTTP avec
Content-Type: text/event-stream - Cas d'utilisation : Réponses de diffusion en continu (par exemple, sortie jeton par jeton)
Dans ce mode, le client envoie une demande et le serveur maintient la connexion ouverte pendant la diffusion des résultats incrémentiels en tant qu'événements.
WebSocket (diffusion en mode duplex complet)
WebSocket fournit une communication bidirectionnelle persistante entre le client et le serveur.
- Modèle d'interaction : Duplex complet (le client et le serveur peuvent envoyer des messages à tout moment)
- Transport : Protocole WebSocket (
wss://) - Cas d'utilisation : Agents interactifs, exécution d'outils en temps réel et sessions à plusieurs tours
Après l'établissement d'une liaison de mise à niveau HTTP initiale, la connexion reste ouverte, ce qui permet l'échange bidirectionnel de messages sur un canal persistant.
Stockage géré
Les agents d'IA ont besoin de services avec état pour prendre en charge la mémoire à court terme, les points de contrôle, la mise en mémoire cache et le stockage contextuel. Pour simplifier les opérations et réduire les frais généraux de gestion, la plate-forme fournit un stockage entièrement géré pour les applications hébergées.
Lors du déploiement d'un agent, vous pouvez sélectionner une ou plusieurs des options de stockage géré suivantes :
- PostgreSQL
- Cache OCI
- Oracle Autonomous Database
Ces services de stockage sont automatiquement provisionnés et configurés pour votre application.
Fonctionnement du stockage géré
Le stockage géré diffère du stockage que vous provisionnez directement dans votre propre location.
- Déploiement géré par le service : Le stockage géré est déployé dans la location de service, pas dans votre location. Il n'est accessible que par l'application hébergée associée et n'est pas exposé pour un accès externe direct (par exemple, au moyen de clients de base de données locaux ou de points d'extrémité publics).
- Accès de portée application : Seule l'application déployée spécifique peut accéder à son instance de stockage géré. L'accès est contrôlé en interne par la plate-forme et vous n'avez pas besoin de configurer manuellement le réseau, l'authentification ou les données d'identification.
- Intégration au cycle de vie : Le stockage géré est étroitement associé au cycle de vie de votre agent :
- Lorsque vous déployez un agent, le stockage est automatiquement créé.
- Lorsque vous ajustez l'agent, le stockage s'adapte en conséquence (si pris en charge).
- Lorsque vous supprimez l'agent, le stockage associé est également supprimé.
- Aucune administration au niveau du DBA : Comme le stockage est entièrement géré par la plate-forme :
- Vous ne disposez pas des autorisations de niveau DBA.
- Vous ne pouvez pas accéder à l'infrastructure sous-jacente.
Une fois l'agent supprimé, le stockage géré est supprimé définitivement et ne peut pas être récupéré.
Quand utiliser le stockage géré par le client
Dans certains scénarios, vous pouvez avoir besoin des éléments suivants :
- Stockage dont le cycle de vie est indépendant de l'agent
- Contrôle d'administration complet de la configuration de la base de données
- Accès direct à partir d'autres systèmes ou outils
- Extensions personnalisées, réglage ou partage interapplications
Dans ces cas, vous pouvez provisionner des ressources de stockage dans votre propre VCN et votre location. Configurez ensuite l'agent pour qu'il se connecte à ces ressources à l'aide du mode de réseau client (décrit dans la section précédente).
Cette option offre une flexibilité maximale tout en vous permettant de garder le contrôle total sur votre infrastructure.
Limites
Pour les limites, telles que le nombre d'applications ou d'artefacts autorisés par location, voir Limites d'application.
Gérer
Vous pouvez effectuer les tâches suivantes pour créer et lister des applications :