Gehostete Anwendungen

Eine Anwendung ist eine OCI-Ressource, die definiert, wie eine gehostete generative KI-Workload ausgeführt wird und wie auf sie zugegriffen wird. Anwendungen zentralisieren Betriebseinstellungen wie Autoscaling, verwalteter Speicher, Netzwerk und Authentifizierung. Gehostete Deployments, die in einer Anwendung erstellt wurden, übernehmen diese Einstellungen.

Eine Anwendung ist eine OCI-Ressource, die definiert, wie eine gehostete generative KI-Workload ausgeführt wird und wie auf sie zugegriffen wird. Anwendungen zentralisieren Betriebseinstellungen wie Autoscaling, verwalteter Speicher, Netzwerk und Authentifizierung. Gehostete Deployments, die in einer Anwendung erstellt wurden, übernehmen diese Einstellungen.

Eine Anwendungseinstellung kann Folgendes umfassen:

  • Skalierungseinstellungen für gehostete Deployments (Mindest- und Höchstanzahl von Replikaten und Autoscaling-Metrik)
  • Verwaltete Speicheroptionen und Laufzeitumgebungsvariablen
  • Netzwerkeinstellungen für ausgehenden Traffic (Egress) und Endpunktzugriff
  • Authentifizierungseinstellungen mit einer Identitätsdomain

Skalierung

Skalierungseinstellungen definieren, wie gehostete Deployments, die mit einer Anwendung verknüpft sind, Replikate zur Verarbeitung von Last hinzufügen oder entfernen. Sie legen eine Mindest- und Höchstanzahl von Replikaten fest und wählen eine Autoscaling-Metrik aus, wie nebenläufige Anforderungen, Anforderungen pro Sekunde (RPS), CPU-Auslastung oder Speicherauslastung.

Verwaltete Speicher- und Laufzeitvariablen

Verwalteter Speicher bietet serviceverwaltete zustandsbehaftete Speicheroptionen, die von gehosteten Deployments verwendet werden können, die mit einer Anwendung verknüpft sind. Wenn diese Option aktiviert ist, werden dem Container über Umgebungsvariablen Verbindungsdetails bereitgestellt.

Sie können auch andere Laufzeitvariablen definieren, die zur Laufzeit in den Container injiziert werden.

Authentifizierung

Authentifizierungseinstellungen steuern, wie Anforderungen authentifiziert werden, bevor sie an das gehostete Deployment weitergeleitet werden. Anwendungen unterstützen die OAuth 2.0-Authentifizierung mit einer Identitätsdomain. Siehe Authentifizierung für Agentic Support einrichten

Netzwerk

Netzwerkeinstellungen steuern, wie gehostete Deployments, die mit einer Anwendung verknüpft sind, ausgehenden Traffic (Egress) weiterleiten, und wie über einen öffentlichen oder privaten Endpunkt auf das aktive Deployment zugegriffen wird.

Standardmäßig ist jede bereitgestellte Anwendung mit ausgehendem Zugriff auf das öffentliche Internet konfiguriert. So können Agent-Workloads externe Ressourcen wie öffentliche MCP-Server, APIs von Drittanbietern, Foundation Model-Endpunkte und andere vom Internet gehostete Tools erreichen, die für typische KI-Workflows erforderlich sind.

Eine Anwendung kann auch im Kundennetzwerkmodus ausgeführt werden. Für diese Option geben Sie ein Zielsubnetz innerhalb eines VCN im Mandanten an. Die Plattform stellt dann eine sichere private Netzwerkverbindung zwischen der Agent-Workload und dem ausgewählten Subnetz mit einem Private Endpoint/Reverse Connection Endpoint-(PE/RCE-)Mechanismus her.

Nach der Aktivierung wird der gesamte ausgehende (Egress-)Traffic vom Agent über das vom Kunden angegebene Subnetz weitergeleitet. In diesem Fall gilt Folgendes:

  • Der Agent kann sicher auf private Ressourcen in Ihrem Netzwerk zugreifen (z.B. Datenbanken, Compute-Instanzen, interne Services).
  • Der Datenverkehr bleibt innerhalb der Grenzen des privaten Netzwerks.
  • Netzwerksicherheitskontrollen wie Netzwerksicherheitsgruppen, (NSG)s, Routentabellen und Firewalls in Ihrem VCN steuern die ausgehende Konnektivität.
  • Der öffentliche Internet-Egress kann entsprechend den Sicherheitsanforderungen des Unternehmens eingeschränkt oder deaktiviert werden.

Dieses Modell bietet Flexibilität, sowohl internetseitige KI-Workloads als auch vollständig private, unternehmensintegrierte Deployments zu unterstützen und gleichzeitig klare Netzwerkisolationsgrenzen zwischen der Plattform und Kundenumgebungen beizubehalten.

Endpunkte

Standardmäßig wird jeder bereitgestellten Anwendung ein öffentlicher Endpunkt durch Provisioning bereitgestellt, mit dem Ihre Clients den Agent über das Internet aufrufen können, vorbehaltlich konfigurierter Authentifizierungs- und Autorisierungskontrollen.

Für Anwendungsfälle, die privaten Netzwerkzugriff erfordern, können Sie einen privaten Endpunkt (PE) innerhalb der GenAI-Plattform erstellen. Der private Endpunkt ermöglicht den Aufruf über eine private IP-Adresse und eine interne DNS-Auflösung. Clients innerhalb des verbundenen privaten Netzwerks (z.B. VCN, On-Premise über FastConnect/VPN oder Peer-Netzwerke) können den Agent dann mit dem vollqualifizierten Domainnamen (FQDN) des privaten Endpunkts aufrufen.

Dieses Setup ermöglicht:

  • Beseitigung der öffentlichen Internetpräsenz
  • Verkehrsbegrenzung innerhalb privater Netzwerkgrenzen
  • Anpassung an Sicherheits- und Complianceanforderungen für Unternehmensnetzwerke

Unterstützte Transportprotokolle

Nachdem ein Agent bereitgestellt wurde, rufen Clients ihn über den bereitgestellten Endpunkt auf. Das Transportprotokoll hängt von der Agent-Serverimplementierung und dem erforderlichen Interaktionsmodell ab (Anforderung/Antwort, Streaming oder bidirektionale Sessions).

Unterstützte Protokolle:

HTTP

HTTP ist das am häufigsten unterstützte Aufrufmodell.

  • Interaktionsmodell: Zustandslose Anforderung/Antwort
  • Transport: HTTP/1.1 oder HTTP/2 über TLS
  • Anwendungsfall: Synchrone API-Aufrufe und kurzlebige Inferenzanforderungen

In diesem Modus sendet der Client eine HTTP-Anforderung (in der Regel POST mit einer JSON-Payload). Der Server gibt nach Abschluss der Verarbeitung eine einzelne Antwort zurück.

SSE (Server-gesendete Ereignisse)

Server-Sent Events (SSE) ist ein unidirektionales Streamingprotokoll, das auf HTTP basiert.

  • Interaktionsmodell: Client-zu-Server (einzelne Anforderung), Server-zu-Client (streamierte Antwort)
  • Transport: HTTP mit Content-Type: text/event-stream
  • Anwendungsfall: Streamingantworten (z.B. Token-by-Token-Ausgabe)

In diesem Modus sendet der Client eine Anforderung, und der Server hält die Verbindung offen, während inkrementelle Ergebnisse als Ereignisse gestreamt werden.

WebSocket (Vollständiges Duplex-Streaming)

WebSocket bietet eine dauerhafte, bidirektionale Kommunikation zwischen Client und Server.

  • Interaktionsmodell: Vollduplex (Client und Server können Nachrichten jederzeit senden)
  • Transport: WebSocket-Protokoll (wss://)
  • Anwendungsfall: Interaktive Agents, Echtzeit-Toolausführung und Multiturn-Sessions

Nach dem anfänglichen HTTP-Upgrade-Handshake bleibt die Verbindung geöffnet, sodass der bidirektionale Nachrichtenaustausch über einen persistenten Kanal ermöglicht wird.

Verwalteter Speicher

KI-Agents benötigen zustandsbehaftete Services, um Kurzzeitgedächtnis, Checkpoints, Caching und Kontextspeicherung zu unterstützen. Um den Betrieb zu vereinfachen und den Verwaltungsaufwand zu reduzieren, bietet die Plattform vollständig verwalteten Speicher für gehostete Anwendungen.

Beim Deployment eines Agent können Sie eine oder mehrere der folgenden verwalteten Speicheroptionen auswählen:

  • PostgreSQL
  • OCI-Cache
  • Oracle Autonomous Database

Diese Speicherservices werden automatisch für Ihre Anwendung bereitgestellt und konfiguriert.

Funktionsweise von verwaltetem Speicher

Der verwaltete Speicher unterscheidet sich von dem Speicher, den Sie direkt in Ihrem eigenen Mandanten bereitstellen.

  • Serviceverwaltetes Deployment: Der verwaltete Speicher wird im Servicemandanten bereitgestellt, nicht in Ihrem Mandanten. Sie ist nur für die zugehörige gehostete Anwendung zugänglich und wird nicht für direkten externen Zugriff bereitgestellt (z.B. über lokale Datenbankclients oder öffentliche Endpunkte).
  • Anwendungsbezogener Zugriff: Nur die spezifische bereitgestellte Anwendung kann auf ihre verwaltete Speicherinstanz zugreifen. Der Zugriff wird intern von der Plattform gesteuert, und Sie müssen Networking, Authentifizierung oder Zugangsdaten nicht manuell konfigurieren.
  • Lifecycle-Integration: Verwalteter Speicher ist eng mit dem Lebenszyklus Ihres Agent gekoppelt:
    • Wenn Sie einen Agent bereitstellen, wird der Speicher automatisch erstellt.
    • Wenn Sie den Agent skalieren, wird der Speicher entsprechend skaliert (sofern unterstützt).
    • Wenn Sie den Agent löschen, wird auch der zugehörige Speicher gelöscht.
  • Keine Administration auf DBA-Ebene: Da der Speicher vollständig von der Plattform verwaltet wird:
    • Sie haben keine Berechtigungen auf DBA-Ebene.
    • Sie können nicht auf die zugrunde liegende Infrastruktur zugreifen.
Wichtig

Sobald der Agent gelöscht wurde, wird der verwaltete Speicher endgültig entfernt und kann nicht wiederhergestellt werden.

Verwendung von vom Kunden verwaltetem Speicher

In einigen Szenarios benötigen Sie möglicherweise Folgendes:

  • Speicher, dessen Lebenszyklus vom Agent unabhängig ist
  • Vollständige administrative Kontrolle über die Datenbankkonfiguration
  • Direkter Zugriff von anderen Systemen oder Tools
  • Benutzerdefinierte Erweiterungen, Optimierung oder anwendungsübergreifende Freigabe

In diesen Fällen können Sie Speicherressourcen in Ihrem eigenen VCN und Mandanten bereitstellen. Konfigurieren Sie dann den Agent so, dass er über den Kundennetzwerkmodus (im vorherigen Abschnitt beschrieben) eine Verbindung zu diesen Ressourcen herstellt.

Diese Option bietet maximale Flexibilität und ermöglicht es Ihnen, die volle Kontrolle über Ihre Infrastruktur zu behalten.

Limits

Limits wie die Anzahl der zulässigen Anwendungen oder Artefakte pro Mandant finden Sie unter Anwendungslimits