Multicloud-verteilte KI-Workloads mit Oracle Interconnect for Google Cloud bereitstellen

Das Training großer Sprachmodelle (LLM) kann eine große Anzahl von GPUs von mehreren Cloud-Providern in einer Region erfordern. Diese Designlösung führt einen Multicloud-Ansatz für die Ausführung von LLM-Schulungen und -Inferenzen auf Oracle Cloud Infrastructure (OCI) AI Infrastructure on Demand ein, indem Oracle Interconnect for Google Cloud mit dem Anwendungs-Frontend verwendet wird, das auf Google Kubernetes Engine (GKE) ausgeführt wird.

OCI AI Cluster bietet eine robuste Plattform zum Trainieren großer Sprachmodelle. Diese Modelle, die in der Lage sind, Texte, Übersetzungen und Code in menschlicher Qualität zu generieren, erfordern immense Rechenleistung und große Datenmengen. OCI AI Cluster bietet die erforderliche Infrastruktur mit leistungsstarken Computing-Ressourcen und optimiertem Networking, um das LLM-Training zu beschleunigen. Dedizierte KI-Cluster sind Compute-Ressourcen, die Sie zur Optimierung benutzerdefinierter Modelle oder zum Hosten von Endpunkten für die vortrainierten Basismodelle und benutzerdefinierten Modelle in OCI Generative AI verwenden können. Die Cluster werden dediziert für Ihre Modelle bereitgestellt und nicht mit Benutzern in anderen Mandanten geteilt.

Generative KI und Google Kubernetes Engine

Diese Lösung nutzt die KI-Infrastruktur von Oracle Cloud für das GPU-beschleunigte Modelltraining und verwendet dabei vertraute Kubernetes-Orchestrierungstools.

Generative KI ist ein vollständig verwalteter OCI-Service, der eine Reihe modernster, anpassbarer LLMs bereitstellt, die eine Vielzahl von Anwendungsfällen abdecken, darunter Chat, Textgenerierung, Zusammenfassung und das Erstellen von Texteinbettungen. Mit dem Playground können Sie die gebrauchsfertigen vortrainierten Modelle ausprobieren oder Ihre eigenen optimierten benutzerdefinierten Modelle basierend auf Ihren eigenen Daten auf dedizierten KI-Clustern erstellen und hosten.

Ein GKE-Cluster besteht aus einer Control Plane und Worker-Rechnern, die Knoten genannt werden. Die Control Plane und die Knoten bilden das Kubernetes-Clusterorchestrierungssystem. GKE Autopilot verwaltet die gesamte zugrunde liegende Infrastruktur von Clustern, einschließlich der Control Plane, der Knoten und aller Systemkomponenten. Wenn Sie den GKE-Standardmodus verwenden, verwaltet GKE die Control Plane und Systemkomponenten und verwaltet die Knoten.

Vorteile dieser Architektur

Zu den wichtigsten Vorteilen der Verwendung von OCI AI Cluster für LLM-Schulungen gehören:

  • Skalierbarkeit: Passen Sie Compute-Ressourcen ganz einfach an die Trainingsanforderungen an.
  • Performance: Nutzen Sie leistungsstarke Netzwerke und GPU-beschleunigte Compute-Instanzen.
  • Kosteneffizienz: Optimieren Sie die Ressourcenauslastung, und zahlen Sie nur für das, was Sie nutzen.
  • Sicherheit: Nutzen Sie die robusten Sicherheitsmaßnahmen von Oracle, um sensible Daten zu schützen.
  • Integration: Nahtlose Integration mit anderen OCI-Services für Datenmanagement und Modellbereitstellung.

Durch die Nutzung der Leistungsfähigkeit des OCI-KI-Clusters können Unternehmen anspruchsvolle LLMs entwickeln und bereitstellen, um Innovation und Geschäftswert zu steigern.

Schritte zum Trainieren eines LLMs in einem OCI-KI-Cluster verstehen

Zum Trainieren eines LLM auf OCI-KI-Clustern sind folgende Schritte erforderlich:

  1. Richten Sie die AI-Clusterumgebung ein.
  2. Auf dieser Seite bereiten Sie Schulungsdaten vor und bereiten sie vor.
  3. Wählen und konfigurieren Sie eine LLM-Architektur.
  4. Implementieren Sie Trainingspipeline und Hyperparameteroptimierung.
  5. Bewerten Sie die Modellperformance und die Feinabstimmung.