Aperçu du déploiement d'agents dans le service d'intelligence artificielle générative pour OCI
Vous pouvez déployer des agents à l'aide des applications d'intelligence artificielle générative pour OCI, qui fournissent une exécution gérée pour les charges de travail d'agent conteneurisées.
Pour déployer un agent, assemblez-le en tant qu'image de conteneur, chargez-le dans Oracle Cloud Infrastructure Registry (OCIR) et déployez-le à l'aide de la console, de l'API ou de l'interface de ligne de commande OCI.
Lors du déploiement, configurez :
- Ajustement
- Stockage
- Réseau
- Authentication
Après le déploiement, le service provisionne un point d'extrémité (par exemple, une URL HTTP) que les clients ou d'autres agents peuvent utiliser pour appeler l'agent.
Fonctionnement
Après avoir développé un agent localement (par exemple, à l'aide de LangGraph ou de cadres similaires), vous créez une application d'IA générative pour définir la configuration d'exécution.
Vous créez ensuite un déploiement en sélectionnant une image de conteneur. Le déploiement actif envoie des demandes au moyen du point d'extrémité de l'application. Une fois le déploiement provisionné, le point d'extrémité devient disponible pour l'appel de l'agent.
Procédure pas à pas
Utilisez des applications d'IA générative pour déployer des agents en tant qu'applications conteneurisées gérées dans l'IA générative OCI.
Avec les applications d'IA générative, vous créez une image de conteneur, la chargez dans Oracle Cloud Infrastructure Registry (OCIR) et déployez cette image en tant qu'application d'IA générative à l'aide de la console, de l'API ou de l'interface de ligne de commande OCI.
Lorsque vous déployez un agent, vous pouvez configurer le mode d'exécution de l'application et la façon dont les clients y accèdent, notamment :
- Ajustement
- Stockage
- Réseau
- Authentification
Une fois le déploiement provisionné, OCI Generative AI fournit un point d'extrémité, tel qu'une URL HTTP, que les clients peuvent utiliser pour appeler l'agent déployé.
Le déploiement d'un agent est utile lorsque vous voulez une exécution gérée pour une application d'agent conteneurisée, avec configuration de déploiement gérée par OCI et provisionnement de point d'extrémité.
Pour plus d'informations, voir les rubriques sur les applications d'IA générative et le déploiement d'applications d'agent conteneurisées.
Comparer des applications à d'autres options de déploiement de conteneur OCI
Comparez les applications d'IA générative avec les instances de conteneur OCI et Oracle Kubernetes Engine (OKE).
Les applications d'IA générative d'OCI fournissent une option de déploiement géré pour les applications agéntiques et les serveurs MCP. Les tableaux suivants les comparent à d'autres solutions de déploiement de conteneurs OCI.
Comparer les applications d'intelligence artificielle générative aux instances de conteneur OCI
| Capacité | Applications GenAI | Instances de conteneur OCI |
|---|---|---|
| Utilisation principale | Services Web, en particulier les applications agéntiques et les serveurs MCP | Tâches, scripts et programmes par lots |
| Modèle de déclenchement | HTTP ou basé sur des événements | Manuel, basé sur des API ou programmé |
| Ajustement | Mise à l'échelle automatique de 0 à plusieurs instances | Aucune mise à l'échelle automatique intégrée |
| Mettre à zéro | Oui | Non automatique |
| Équilibrage de charge | Intégré | Gestion par l'utilisateur |
| Niveau d'abstraction | Déploiement de niveau supérieur sans serveur | Exécution de conteneur de niveau inférieur |
| Modèle de démarrage | Démarrage rapide et basé sur les demandes | Commence comme une petite machine virtuelle |
| Réseau | Points d'extrémité HTTPS gérés | Contrôle au niveau du VCN |
Comparer les applications d'intelligence artificielle générative à OKE
| Capacité | Applications GenAI | OKE |
|---|---|---|
| Frais généraux liés aux opérations | Low | Supérieur |
| Ajustement | Mise à l'échelle automatique de 0 à N | Configurable avec l'ajustement automatique des HPA et des grappes |
| Mettre à zéro | Oui | Non natif |
| Déploiement | Simple, en poussant une image de conteneur | Plus complexe, avec manifestes et graphiques Helm |
| Contrôle | Limitée | Contrôle total |
| Réseau | Gestion totale | Entièrement personnalisable |
| Cas d'utilisation | API et services sans état | Systèmes distribués complexes |
Protocoles de transport pris en charge
Dans le service d'intelligence artificielle générative pour OCI, une fois qu'un agent est déployé, les clients peuvent l'appeler au moyen du point d'extrémité provisionné. Le protocole de transport dépend de l'implémentation du serveur d'agents et du modèle d'interaction requis (sessions de demande/réponse, de diffusion en continu ou bidirectionnelles).
Les protocoles pris en charge sont les suivants :
HTTP
HTTP est le modèle d'appel le plus pris en charge.
- Modèle d'interaction : Demande/réponse sans état
- Transport : HTTP/1.1 ou HTTP/2 sur TLS
- Cas d'utilisation : Appels d'API synchrones et demandes d'inférence de courte durée
Dans ce mode, le client envoie une demande HTTP (généralement POST avec des données utiles JSON). Le serveur retourne une seule réponse une fois le traitement terminé.
SSE (événements Server-Sent)
Server-Sent Events (SSE) est un protocole de streaming unidirectionnel construit sur HTTP.
- Modèle d'interaction : Client à serveur (demande unique), serveur à client (réponse diffusée)
- Transport : HTTP avec
Content-Type: text/event-stream - Cas d'utilisation : Réponses de diffusion en continu (par exemple, sortie jeton par jeton)
Dans ce mode, le client envoie une demande et le serveur maintient la connexion ouverte pendant la diffusion des résultats incrémentiels en tant qu'événements.
WebSocket (diffusion en mode duplex complet)
WebSocket fournit une communication bidirectionnelle persistante entre le client et le serveur.
- Modèle d'interaction : Duplex complet (le client et le serveur peuvent envoyer des messages à tout moment)
- Transport : Protocole WebSocket (
wss://) - Cas d'utilisation : Agents interactifs, exécution d'outils en temps réel et sessions à plusieurs tours
Après l'établissement d'une liaison de mise à niveau HTTP initiale, la connexion reste ouverte, ce qui permet l'échange bidirectionnel de messages sur un canal persistant.
Authentification
Configurez l'authentification entrante pour contrôler l'accès aux agents et l'authentification sortante pour accéder en toute sécurité aux ressources OCI.
Les applications prennent en charge l'authentification OAuth 2.0 à l'aide d'un domaine d'identité. Voir Configuration de l'authentification pour la prise en charge Agentic
Authentification entrante
L'authentification entrante contrôle qui peut accéder à vos agents en validant les jetons des fournisseurs d'identités avant d'acheminer les demandes aux agents hébergés.
Le service d'intelligence artificielle générative pour OCI prend en charge OAuth 2.0 pour l'authentification entrante, intégrée à des fournisseurs d'identités tels qu'Oracle Identity Cloud Service (IDCS). Voir Configuration de l'authentification pour la prise en charge Agentic.
Authentification sortante
Avec l'authentification sortante, les applications d'agent déployées peuvent accéder en toute sécurité à d'autres ressources OCI dans une location.
L'accès est accordé en définissant des politiques OCI IAM qui autorisent l'application d'agent (en tant que principal de ressource) à effectuer des actions spécifiques sur les ressources spécifiées. Ces politiques déterminent la portée de l'accès en fonction du principe du moindre privilège.
Après le déploiement, la plate-forme provisionne automatiquement un jeton de session principal de ressource (RPST) pour la charge de travail de l'agent. Le RPST est injecté en toute sécurité dans l'exécution du conteneur, ce qui permet à l'application de s'authentifier auprès des services OCI sans utiliser de données d'identification de longue durée telles que des clés d'API ou des jetons d'utilisateur.
Dans le conteneur, l'agent utilise la trousse SDK OCI avec le fournisseur d'authentification du principal de ressource. La trousse SDK extrait et actualise automatiquement le RPST, ce qui permet un accès sécurisé aux services OCI autorisés tels que le service de stockage d'objets, Autonomous Database, la chambre forte et le service de diffusion en continu.
Réseau pour les déploiements
Dans OCI Generative AI, par défaut, les applications déployées ont un accès sortant à l'Internet public. Cela permet aux charges de travail d'agent d'accéder à des ressources externes telles que des serveurs MCP publics, des API de tierce partie, des points d'extrémité de modèle de base et d'autres services hébergés sur Internet.
Pour le réseau privé, vous pouvez activer le mode de réseau client. Dans ce mode, vous spécifiez un sous-réseau cible dans un VCN de votre location. La plate-forme établit une connexion sécurisée entre la charge de travail de l'agent et le sous-réseau à l'aide d'un point d'extrémité privé / point d'extrémité de connexion inverse (PE/RCE).
Lorsque cette option est activée, tout le trafic sortant (sortant) de l'agent est acheminé par le sous-réseau spécifié. Cela permet :
- Accès sécurisé aux ressources privées de votre réseau (par exemple, bases de données, instances de calcul et services internes)
- Trafic restant dans les limites du réseau privé
- Contrôles de sécurité de réseau tels que les groupes de sécurité de réseau, les tables de routage et les pare-feu pour régir la connectivité sortante
- Restriction ou désactivation de l'accès à Internet public, en fonction de vos exigences de sécurité
Ce modèle prend en charge les charges de travail accessibles sur Internet et les déploiements privés intégrés à l'entreprise, tout en maintenant un isolement clair du réseau entre la plate-forme et votre environnement.
Stockage géré
Les charges de travail des agents nécessitent souvent des services avec état pour prendre en charge la mémoire à court terme, les points de reprise, la mise en mémoire cache et le stockage contextuel. Pour simplifier les opérations, OCI Generative AI fournit des services de stockage entièrement gérés pour les agents déployés.
Lors du déploiement d'un agent, vous pouvez sélectionner une ou plusieurs des options de stockage géré suivantes :
- PostgreSQL
- Cache OCI
- Oracle Autonomous Database
Ces services sont automatiquement provisionnés et configurés pour votre application.
Fonctionnement du stockage géré
Le stockage géré diffère du stockage que vous provisionnez dans votre propre location :
-
Déploiement géré par le service
Le stockage est provisionné dans la location du service et n'est pas exposé pour un accès externe direct (par exemple, au moyen de clients de base de données ou de points d'extrémité publics).
-
Accès de portée application
Seule l'application déployée associée peut accéder à son stockage. L'accès est géré par la plate-forme. Aucune configuration manuelle de réseau ou de données d'identification n'est donc requise.
-
Intégration du cycle de vie
Le stockage est lié au cycle de vie de l'agent :- Créé lorsque l'agent est déployé
- Évolutivité avec l'application (si prise en charge)
- Supprimé lorsque l'agent est supprimé
-
Aucune gestion administrative
La plate-forme gère l'infrastructure de stockage. Vous ne disposez pas d'un accès au niveau DBA ni d'un contrôle sur les ressources sous-jacentes.
Lorsqu'un agent est supprimé, son stockage géré est supprimé définitivement et ne peut pas être récupéré.
Quand utiliser le stockage géré par le client
Utilisez le stockage géré par le client lorsque vous avez besoin des éléments suivants :
- Cycle de vie du stockage indépendant
- Contrôle administratif complet
- Accès direct à partir de systèmes ou d'outils externes
- Configuration personnalisée, extensions ou accès partagé entre les applications
Dans ces cas, provisionnez le stockage dans votre propre VCN et votre location, et configurez l'agent pour qu'il se connecte à l'aide du mode de réseau client.
Cette approche offre plus de flexibilité et de contrôle sur votre infrastructure.