Überblick über das Deployment von Agents in OCI Generative AI
Sie können Agents mit OCI Generative AI Applications bereitstellen, die eine verwaltete Laufzeit für containerisierte Agent-Workloads bereitstellen.
Um einen Agent bereitzustellen, verpacken Sie ihn als Containerimage, laden Sie ihn in Oracle Cloud Infrastructure Registry (OCIR) hoch, und stellen Sie ihn mit der OCI-Konsole, -API oder -CLI bereit.
Konfigurieren Sie während des Deployments:
- Skalierung
- Speicher
- Netzwerk
- Authentifizierung
Nach dem Deployment stellt der Service einen Endpunkt (z.B. eine HTTP-URL) bereit, mit dem Clients oder andere Agents den Agent aufrufen können.
Funktionsinformationen
Nachdem Sie einen Agent lokal entwickelt haben (z.B. mit LangGraph oder ähnlichen Frameworks), erstellen Sie eine generative KI-Anwendung, um die Laufzeitkonfiguration zu definieren.
Anschließend erstellen Sie ein Deployment, indem Sie ein Containerimage auswählen. Das aktive Deployment verarbeitet Anforderungen über den Anwendungsendpunkt. Nachdem das Deployment bereitgestellt wurde, ist der Endpunkt zum Aufrufen des Agent verfügbar.
Kurzübersicht
Verwenden Sie Generative AI Apps, um Agents als verwaltete containerisierte Anwendungen in OCI Generative AI bereitzustellen.
Mit generativen KI-Anwendungen erstellen Sie ein Containerimage, laden es in Oracle Cloud Infrastructure Registry (OCIR) hoch und stellen dieses Image mit der OCI-Konsole, -API oder -CLI als generative KI-Anwendung bereit.
Wenn Sie einen Agent bereitstellen, können Sie konfigurieren, wie die Anwendung ausgeführt wird und wie Clients darauf zugreifen, einschließlich:
- Skalierung
- Speicher
- Netzwerk
- Authentifizierung
Nachdem das Deployment bereitgestellt wurde, stellt OCI Generative AI einen Endpunkt bereit, wie eine HTTP-URL, mit der Clients den bereitgestellten Agent aufrufen können.
Das Deployment eines Agent ist nützlich, wenn Sie eine verwaltete Laufzeit für eine containerisierte Agent-Anwendung mit OCI-verwalteter Deployment-Konfiguration und Endpunkt-Provisioning wünschen.
Weitere Informationen finden Sie in den Themen zu generativen KI-Anwendungen und zum Bereitstellen containerisierter Agent-Anwendungen.
Anwendungen mit anderen OCI-Container-Deployment-Optionen vergleichen
Generative KI-Anwendungen mit OCI Container Instances und Oracle Kubernetes Engine (OKE) vergleichen
OCI Generative AI-Anwendungen bieten eine verwaltete Deployment-Option für Agent-Anwendungen und MCP-Server. In den folgenden Tabellen werden sie mit anderen OCI-Containerbereitstellungslösungen verglichen.
Generative KI-Anwendungen mit OCI-Containerinstanzen vergleichen
| Fähigkeit | GenAI-Anwendungen | OCI-Containerinstanzen |
|---|---|---|
| Primäre Nutzung | Web-Services, insbesondere Agent-Anwendungen und MCP-Server | Batchjobs, Skripte und Mitarbeiter |
| Triggermodell | HTTP oder ereignisgesteuert | Manuell, API-gesteuert oder geplant |
| Skalierung | Automatische Skalierung von 0 auf viele Instanzen | Keine integrierte automatische Skalierung |
| Auf Null skalieren | Ja | Nicht automatisch |
| Load Balancing | Integriert | Vom Benutzer verwaltet |
| Abstraktionsebene | Mehrstufige, serverlose Bereitstellung | Containerausführung auf niedriger Ebene |
| Startup-Modell | Schneller, anforderungsbasierter Start | Startet wie eine kleine VM |
| Netzwerk | Verwaltete HTTPS-Endpunkte | Steuerung auf VCN-Ebene |
Generative KI-Anwendungen mit OKE vergleichen
| Fähigkeit | GenAI-Anwendungen | OKE |
|---|---|---|
| Betriebsgemeinkosten | Niedrig | Hoch |
| Skalierung | Automatische Skalierung von 0 auf N | Konfigurierbar mit HPA und Cluster-Autoscaling |
| Auf Null skalieren | Ja | Nicht nativ |
| Deployment | Einfach, indem Sie ein Containerimage übertragen | Komplexer, mit Manifesten und Helm-Diagrammen |
| Prüfung | Begrenzt | Vollständige Kontrolle |
| Netzwerk | Vollständig verwaltet | Vollständig anpassbare |
| Anwendungsfall | APIs und zustandslose Services | Komplexe verteilte Systeme |
Unterstützte Transportprotokolle
Nachdem ein Agent in OCI Generative AI bereitgestellt wurde, können Clients ihn über den bereitgestellten Endpunkt aufrufen. Das Transportprotokoll hängt von der Agent-Serverimplementierung und dem erforderlichen Interaktionsmodell ab (Anforderung/Antwort, Streaming oder bidirektionale Sessions).
Unterstützte Protokolle:
HTTP
HTTP ist das am häufigsten unterstützte Aufrufmodell.
- Interaktionsmodell: Zustandslose Anforderung/Antwort
- Transport: HTTP/1.1 oder HTTP/2 über TLS
- Anwendungsfall: Synchrone API-Aufrufe und kurzlebige Inferenzanforderungen
In diesem Modus sendet der Client eine HTTP-Anforderung (in der Regel POST mit einer JSON-Payload). Der Server gibt nach Abschluss der Verarbeitung eine einzelne Antwort zurück.
SSE (Server-gesendete Ereignisse)
Server-Sent Events (SSE) ist ein unidirektionales Streamingprotokoll, das auf HTTP basiert.
- Interaktionsmodell: Client-zu-Server (einzelne Anforderung), Server-zu-Client (streamierte Antwort)
- Transport: HTTP mit
Content-Type: text/event-stream - Anwendungsfall: Streamingantworten (z.B. Token-by-Token-Ausgabe)
In diesem Modus sendet der Client eine Anforderung, und der Server hält die Verbindung offen, während inkrementelle Ergebnisse als Ereignisse gestreamt werden.
WebSocket (Vollständiges Duplex-Streaming)
WebSocket bietet eine dauerhafte, bidirektionale Kommunikation zwischen Client und Server.
- Interaktionsmodell: Vollduplex (Client und Server können Nachrichten jederzeit senden)
- Transport: WebSocket-Protokoll (
wss://) - Anwendungsfall: Interaktive Agents, Echtzeit-Toolausführung und Multiturn-Sessions
Nach dem anfänglichen HTTP-Upgrade-Handshake bleibt die Verbindung geöffnet, sodass der bidirektionale Nachrichtenaustausch über einen persistenten Kanal ermöglicht wird.
Authentifizierung
Richten Sie die eingehende Authentifizierung ein, um den Zugriff auf Agents und die ausgehende Authentifizierung zu kontrollieren und sicher auf OCI-Ressourcen zuzugreifen.
Anwendungen unterstützen die OAuth 2.0-Authentifizierung mit einer Identitätsdomain. Siehe Authentifizierung für Agentic Support einrichten
Eingehende Authentifizierung
Die eingehende Authentifizierung steuert, wer auf Ihre Agents zugreifen kann, indem Token von Identitätsprovidern validiert werden, bevor Anforderungen an gehostete Agents weitergeleitet werden.
OCI Generative AI unterstützt OAuth 2.0 für die eingehende Authentifizierung, integriert in Identitätsprovider wie Oracle Identity Cloud Service (IDCS). Siehe Authentifizierung für Agentic Support einrichten.
Ausgehende Authentifizierung
Mit der ausgehenden Authentifizierung können bereitgestellte Agent-Anwendungen sicher auf andere OCI-Ressourcen innerhalb eines Mandanten zugreifen.
Der Zugriff wird gewährt, indem OCI-IAM-Policys definiert werden, mit denen die Agent-Anwendung (als Resource Principal) bestimmte Aktionen für angegebene Ressourcen ausführen kann. Diese Richtlinien legen den Umfang des Zugriffs basierend auf dem Prinzip der geringsten Rechte fest.
Nach dem Deployment stellt die Plattform automatisch ein Resource Principal Session Token (RPST) für die Agent-Workload bereit. Der RPST wird sicher in die Containerlaufzeit injiziert, sodass sich die Anwendung bei OCI-Services authentifizieren kann, ohne langlebige Zugangsdaten wie API-Schlüssel oder Benutzertoken zu verwenden.
Innerhalb des Containers verwendet der Agent das OCI-SDK mit dem Authentifizierungsprovider des Resource Principals. Das SDK ruft den RPST automatisch ab und aktualisiert ihn. Dadurch wird ein sicherer Zugriff auf autorisierte OCI-Services wie Object Storage, Autonomous Database, Vault und Streaming ermöglicht.
Networking für Deployments
In OCI Generative AI haben bereitgestellte Anwendungen standardmäßig ausgehenden Zugriff auf das öffentliche Internet. Dadurch können Agent-Workloads auf externe Ressourcen wie öffentliche MCP-Server, APIs von Drittanbietern, Foundation Model-Endpunkte und andere im Internet gehostete Services zugreifen.
Für private Netzwerke können Sie den Kundennetzwerkmodus aktivieren. In diesem Modus geben Sie ein Zielsubnetz in einem VCN in Ihrem Mandanten an. Die Plattform stellt eine sichere Verbindung zwischen der Agent-Workload und dem Subnetz her, indem ein privater Endpunkt/Reverse Connection Endpoint (PE/RCE) verwendet wird.
Wenn diese Option aktiviert ist, wird der gesamte ausgehende (Egress-)Traffic vom Agent über das angegebene Subnetz weitergeleitet. Dies ermöglicht:
- Sicherer Zugriff auf private Ressourcen in Ihrem Netzwerk (z.B. Datenbanken, Compute-Instanzen und interne Services)
- Traffic, der innerhalb der Grenzen des privaten Netzwerks verbleibt
- Netzwerksicherheitskontrollen wie Netzwerksicherheitsgruppen (NSGs), Routentabellen und Firewalls zur Steuerung der ausgehenden Konnektivität
- Einschränkung oder Deaktivierung des öffentlichen Internetzugangs, je nach Ihren Sicherheitsanforderungen
Dieses Modell unterstützt sowohl internetseitige Workloads als auch private, unternehmensintegrierte Deployments und sorgt gleichzeitig für eine klare Netzwerkisolation zwischen der Plattform und Ihrer Umgebung.
Verwalteter Speicher
Agent-Workloads erfordern häufig zustandsbehaftete Services, um Kurzzeitspeicher, Checkpoints, Caching und Kontextspeicherung zu unterstützen. Um Vorgänge zu vereinfachen, bietet OCI Generative AI vollständig verwaltete Speicherservices für bereitgestellte Agents.
Beim Deployment eines Agent können Sie eine oder mehrere der folgenden verwalteten Speicheroptionen auswählen:
- PostgreSQL
- OCI Cache
- Oracle Autonomous Database
Diese Services werden automatisch für Ihre Anwendung bereitgestellt und konfiguriert.
Funktionsweise von verwaltetem Speicher
Der verwaltete Speicher unterscheidet sich von dem Speicher, den Sie in Ihrem eigenen Mandanten bereitstellen:
-
Serviceverwaltetes Deployment
Der Speicher wird im Servicemandanten bereitgestellt und nicht für direkten externen Zugriff bereitgestellt (z.B. über Datenbankclients oder öffentliche Endpunkte).
-
Anwendungsbezogener Zugriff
Nur die verknüpfte bereitgestellte Anwendung kann auf ihren Speicher zugreifen. Der Zugriff wird von der Plattform verwaltet, sodass keine manuelle Netzwerk- oder Zugangsdatenkonfiguration erforderlich ist.
-
Lebenszyklusintegration
Der Speicher ist an den Lebenszyklus des Agent gebunden:- Erstellt, wenn der Agent bereitgestellt wird
- Skalierung mit der Anwendung (sofern unterstützt)
- Gelöscht, wenn der Agent gelöscht wird
-
Kein Verwaltungsmanagement
Die Plattform verwaltet die Speicherinfrastruktur. Sie haben keinen Zugriff auf DBA-Ebene oder keine Kontrolle über die zugrunde liegenden Ressourcen.
Wenn ein Agent gelöscht wird, wird sein verwalteter Speicher endgültig entfernt und kann nicht wiederhergestellt werden.
Verwendung von vom Kunden verwaltetem Speicher
Verwenden Sie den vom Kunden verwalteten Speicher, wenn Sie Folgendes benötigen:
- Unabhängiger Speicherlebenszyklus
- Vollständige administrative Kontrolle
- Direkter Zugriff von externen Systemen oder Tools
- Benutzerdefinierte Konfiguration, Erweiterungen oder gemeinsamer Zugriff über Anwendungen hinweg
In diesen Fällen stellen Sie Speicher in Ihrem eigenen VCN und Mandanten bereit, und konfigurieren Sie den Agent so, dass er eine Verbindung mit ihm herstellt, indem Sie den Kundennetzwerkmodus verwenden.
Dieser Ansatz bietet mehr Flexibilität und Kontrolle über Ihre Infrastruktur.